Code4Lib Journal 十周年

code{4}lib

Code4Lib 是图书馆程序员组成的志愿者集体,从2003年秋天邮件讨论组开始,经历并保持着邮件组、聊天室、博客、各种社交网络、面对面会议(2005年开始的年会)以及编辑一份在线期刊——Code4Lib Journal。

Code4Lib Journal (ISSN 1940-5758)
本刊为季刊,2007-12-17发布第1期,今年是十周年。其宗旨是:在对图书馆、技术与未来交叉点感兴趣者中培育社区、共享信息。
2017年4月20日出版的第36期,编辑 Peter E. Murray 回顾了期刊的十年:
Editorial: Reflecting on the success and risks to the Code4Lib Journal
作为开放获取的在线期刊,本刊既不收版面费也不付稿费,十年累计网页浏览150万(来自中国的不少),标签云显示前35期333篇文章的关注热点:数据,数字,开放,元数据……。

该刊文章特别具有时效性,反映当前图书馆的技术热点。第36期文章概要如下:
Linked Data is People: Building a Knowledge Graph to Reshape the Library Staff Directory / Jason A. Clark and Scott W. H. Young
蒙大拿州立大学图书馆,采用 schema.org 发布员工名录,改善SEO,同时以可视化方式展示馆员的专长、学科领域及与其他馆员的关系。【可视为试手用schema.org发布关联数据】

Recommendations for the application of Schema.org to aggregated Cultural Heritage metadata to increase relevance and visibility to search engines: the case of Europeana / Richard Wallis, Antoine Isaac, Valentine Charles, and Hugo Manguinhas
建议采用 schema.org 集成 Europeana 的文化遗产元数据,以增加对搜索引擎的相关性与可见性。【第1作者Richard Wallis当年曾致力于Schema.org的图书馆扩展】

Autoload: a pipeline for expanding the holdings of an Institutional Repository enabled by ResourceSync / James Powell, Martin Klein and Herbert Van de Sompel
洛斯阿拉莫斯国家实验室的机构库LARO,只收到10%全文。通过“资源同步”(ResourceSync)标准,结合机构库Solr索引曝光元数据,自动发现未收的内容。原型 solrSync 应用,使用 Python 的 resync 库。

Outside The Box: Building a Digital Asset Management Ecosystem for Preservation and Access / Andrew Weidner, Sean Watkins, Bethany Scott, Drew Krewer, Anne Washington, Matthew Richardson
休斯顿大学图书馆,2015年承诺升级数字文化遗产馆藏的数据为开源保存与获取系统。使用关联数据词表管理器 Cedar:基于DPLA MAP(美国数字公共图书馆元数据应用纲要)的本地 SKOS 词表。

Medici 2: A Scalable Content Management System for Cultural Heritage Datasets / Constantinos Sophocleous, Luigi Marini, Ropertos Georgiou, Mohammed Elfarargy, Kenton McHenry
文化遗产数据集内容管理系统“美第奇2”:项目由NCSA、亚历山大图书馆、塞浦路斯学院合作开发,属于欧洲项目“欧洲和东地中海2 关联科学计算”,得到以下机构资助:美国国家科学基金NSF、美国档案与记录管理局NARA、美国国立卫生研究院NIH、美国国家人文基金会NEH、美国海军研究所ONR、美国环境保护署EPA及其他私营机构。【如此多公共基金资助,应当免费吧?不知道哪里可下载】

An Interactive Map for Showcasing Repository Impacts / Hui Zhang and Camden Lopez
显示机构库影响的交互地图。使用Google Analytics,近乎实时的机构库实际访问可视化,显示浏览或下载的城市,以及题名、到该页面的超链接。

蒂姆•伯纳斯-李《编织万维网》笔记

本月4日,万维网发明人 Tim Berners-Lee 获得2016年度ACM图灵奖(W3C官方声明中文版)。图灵奖是计算机科学领域的最高奖项,也被形容为“计算领域的诺贝尔奖”。
文因互联CEO鲍捷次日发表“WEB的50年——从TIM BERNERS-LEE的图灵奖说起”,详述万维网的过去、现在及未来,以及Tim Berners-Lee的贡献。文章的关注点在语义网,作者认为以2012年Google知识图谱发布为标志,语义网已经开始加速。
文中提到Tim Berners-Lee的《Weaving the Web》一书有中文版。马上到图书馆网站,把早已进入闭架书库的书预约借出。拿到手后,惊讶地发现,中文版竟然与原版同一年出版——1999年互联网在国内还远没有普及,真是难能可贵。

蒂姆•伯纳斯-李,马克·菲谢蒂;萧风,张宇宏译. 编织万维网:万维网之父谈万维网的原初设计与最终命运. 上海译文出版社, 1999
Tim Berners-Lee, with Mark Fischetti. Weaving the Web : the original design and ultimate destiny of the world wide web by its inventor. Harper Collins Publishers, 1999.

作为万维网发展史,本书前半部分按时间排列,从父母在英国参与设计世界上第一台商业计算机,到作者1980年代在日内瓦的欧洲原子能研究中心(CERN)工作、1989年发明万维网,然后精心推动万维网的发展,到1994年去美国主持成立万维网联合会(W3C) 。
看的过程中发现自己以前对因特网、互联网、万维网真是傻傻分不清。1960年代出现的因特网/互联网,作为网络基础设施,运行有各种协议,万维网(HTTP协议)通过包容其他协议(比如曾经用过的昙花一现的wais,再比如至今仍有很强生命力的ftp),迅速将互联网上已有内容呈现在万维网浏览器,从而得到快速发展。万维网三要素:统一资源识别器URI,超文本传输协议HTTP、超文本标记语言HTML,重要性呈递减排列。“除此之外,就没有什么其他东西了”。(p.36)
对我来说,万维网几乎等同于互联网,除了个人信息管理工具外(如邮件与笔记),其他都喜欢通过浏览器访问。特别不喜欢微信,因为在万维网上可见性太差,除分享链接外均不可见。李爵士应该也不会喜欢微信。

W3C是个什么样的组织?其标准为什么称为“推荐”?不时会看到的RFC(Request for Comments)又是什么意思,比如“1990年代的书目记录格式:RFC1807”(2015-10-17)?
为推广万维网,李爵士在1992年开始参与互联网界的标准制订机构 IETF(Internet Engineering Task Force)的活动。为给URI制订一个标准,折腾数年未果,最后李爵士编写了一份关于URI如何在万维网上使用的规格说明,并作为一种资料性的“1630号评论请求书”向IETF团体散发——按IETF官方说法,RFC是关于因特网的技术和机构注释,包括协议、规程、程序、概念、会议纪要、观点甚至幽默。
成为IETF接受的标准太麻烦,于是李爵士期望筹组另一个机构,即后来的W3C。联合会召开的第一次咨询委员会会议上,“对于联合会应该真正确立一个“标准”还是仅发布一个形式上的“推荐规范”,选择了后者,以表明赢得“大体上的共识和符合现行惯例”正是我们所要运作的水准”。
MIT是W3C后面的支持机构,不是没有原因的:www.mit.edu很早被一个学生计算俱乐部占用,因此1992年建立的MIT主服务器名称只好用 web.mit.edu ——现在还是这样。
W3C中国的介绍:万维网联盟(World Wide Web Consortium,简称W3C)创建于1994年,是Web技术领域最具权威和影响力的国际中立性技术标准机构。万维网联盟由Web的发明者 Tim Berners-Lee及W3C的首席执行官 Jeffrey Jaffe领导,由设立在美国麻省理工大学(MIT)、欧洲数学与信息学研究联盟(ERCIM)、日本庆应大学(Keio University)和中国北京航空航天大学的四个全球总部(W3C Hosts)的全球团队联合运营。——本书中只有3家,当时北航还没有加入。

第12章和第13章“机器和万维网”主要围绕“语义万维网”的设想
李爵士在1980年在CERN做最初的超文本时,就是通过链接输入的:“对于每个链接,必须描述其关系是什么……链接是双向起作用的”。
(第12章,p.154)“我有一个关于万维网的梦想……它由两个部分组成。在第一部分中,万维网变成了一个有利于人们相互合作的强大工具。……在梦想的第二部分,合作延伸到了计算机。机器变得可以分析万维网上的所有数据——包括内容、链接,以及人与计算机之间的交易。能够实现这一切 一种“语义的万维网”(Semantic Web)尚未出现……”。
十多年后,语义万维网开始出现了,或者如鲍捷所说,现在开始加速了。重温一下李爵士当年的设想,也是很不错的感觉。

万维网发展过程中,有一位图书馆员的超前贡献
1991年5月,保罗•孔兹从帕洛阿尔托的斯坦福线性加速器实验室(SLAC)到CERN访问。当他回到SLAC时,他将这个万维网程序与负责管理SLAC所产生的所有资料的图书馆员路易丝•阿迪斯一同分享。她把这个程序看作让SLAC大量在线文档的内部目录向全世界物理学家开放的一种方法。她说服一位为她开发工具的同事编写了合适的程序,而且在她的鼓动下,SLAC建立了第一个CERN以外的万维网服务器。——这是世界上第2个万维网服务器。
那时1990年10月建立的第1个万维网服务器 info.cern.ch 的日访问只有10-100次(此后几年以每年10倍速度增加)。顺便说一下,世界上第1个万维网服务器主页还是当年的样子。

最后引李爵士语录:“总会有一些表示不同意见的人,而他们正是进步的杠杆”。(p.92)

BIBFRAME 2.0实施注册

美国国会图书馆(LC)近日宣布开始“BIBFRAME 2.0实施注册”,收录不同机构实施的BIBFRAME相关项目,可以是已经实施的、开发中的或者计划中的。

BIBFRAME 2.0 Implementation Register

LC在2014年启动过“BIBFRAME实施注册”,2014-2015年间共有14或15个项目注册。网址相同,目前先前注册项目暂列在2.0实施注册页面下部,为的是方便相关机构修改后继续注册2.0。不久将彻底删除。如对BIBFRAME发展历史感兴趣,需抓紧时间保存。

现在2.0实施注册下已有3项,都是先前注册项目的更新,更新日期均为2017-4-14,分别是:
1、美国陆军工程兵研究发展中心图书馆:BLUEcloud Visibility(内容未变)
2、斯坦福大学。由LD4L项目更新为LD4P项目(参见:重量级图书馆关联数据项目LD4P获得资助,2016-5-10)
3、德国国家图书馆:BIBFRAME 2.0 Implementation Register(计划2018年实施)