关联数据的鸡与蛋

美国国会图书馆日前宣布强化规范与词表网站id.loc.gov [1],继一年前的LCSH之后,再以关联数据提供如下5种词表的访问,以及词表数据的批量下载:
Thesaurus of Graphic Materials
MARC Code List for Relators
Cryptographic Hash Functions
Preservation Events
Preservation Level Role
后三者用于支持保存与技术元数据方案。
未来将增加的词表包括:MARC地理区域代表码、国家代码表、语种代表码,以及PREMIS控制词表。

Roy Tennant作了如此点评[2]:
面对关联与可链数据的增长生态,对能够做什么有各种推测,但实例或者说“杀手级应用”很少。
对于关联数据,仍处在鸡和蛋的阶段:除非有大量数据可用,否则你不能做什么有趣的东西;你没有大量数据可用,除非人们把它作为关联数据提供,不管是否缺少杀手级应用。为此赞美LC提供越来越多的数据,让我们都可以关联与使用。

[1] Catalogablog: ID.LOC.GOV Web Service Enhancements (May 28, 2010)

[2] TENNANT: DIGITAL LIBRARIES: LC Releases More Linked Data / by Roy Tennant (June 4th, 2010)

W3C图书馆关联数据孵化小组

W3C图书馆关联数据孵化小组(Library Linked Data Incubator Group)刚刚成立,为期一年,结束日期为2011年5月20日。创始主席:
Tom Baker(DCMI的CIO,一位德国人美国人)
Emmanuelle Bermes(法国国家图书馆)
Antoine Isaac(阿姆斯特丹VU大学计算机系博士后,欧洲数字图书馆计划Europeana科学协调员,W3C的SKOS社区联系人)
创始机构:来自芬兰、爱尔兰、马来西亚、英国、德国、荷兰以及美国,有熟悉的LC、OCLC和Talis……

———-小组章程———-
图书馆关联数据孵化小组的使命,是通过汇集图书馆界内外参与语义网活动(重点在关联数据)的人、基于现有创新举措、确定未来的合作轨迹,帮助提高图书馆数据在万维网上的全球互操作。
小组将探索如何以现有图书馆学的基石如元数据模型、元数据模式、标准与协议,建立互操作及图书馆系统与网络化环境,鼓励图书馆将其内容带向万维网的数据互操作,普遍地重新定位其方法,并达到其他社区。同时也将这些社区视为关联数据网规范数据集(个人、主题……)的潜在主要提供者。由于这些发展要求图书馆界围绕(语义)万维网标准共享标准化工作,小组将提炼所需的知识、表述标准与准则的需求,提出促进图书馆界向未来万维网标准化行动做出贡献的方向。
孵化器小组创始成员来自国家图书馆、大学图书馆及研究单位、图书馆供应商及其他感兴趣的利益相关人。其范围不仅限于图书馆,也有意包括其他文化遗产机构、出版业的合作伙伴及其他相关领域。

———-现有图书馆学的基石———-
对于“现有图书馆学的基石”,在“1、动机”中如此描述:
·元数据模式(MODS、MADS、METS……)
·图书馆元数据模型,现正进化到万维网(FRBR、FRAD、RDA……)
·建立与图书馆领域外互操作的标准与协议(OAI-ORE、SKOS、SRU/CQL……)
·(数字)图书馆系统由集成转向网络环境(European、WorldCat、VIAF项目……)

———-活动范围———-
·收集使用案例与个案研究,证明在图书馆与相关部门中语义网技术的成功实施
·培养有兴趣把文化资产移植到关联数据网的活动者(图书馆、博物馆、档案馆、出版者)之间的协作
·确定相关数据模型、词表和本体,以及建立或改善其互操作的方法
·确定对新标准、准则和最佳实践的细化要求
·确定可由小组所代表社区的专业知识受益的(语义)万维网技术范围
·提出接替小组所实施的开创工作的相关组织及其工作范围

———-成功标志———-
对图书馆领域及相关部门采用关联数据的原则与展望提出现状报告,对应当进一步开发什么标准与准则、为此应当建立什么组织有明确且得到认同的观点。
开发或评价特定的本体或词表不在小组范围之内。

———-成果———-
小组主要责任在于产生一个最终报告,表述在图书馆领域及相关部门中关联数据开发的状况,提出这些社区在未来W3C标准化活动中有效参与的方向。
其他可能包括在最终报告中的内容:
·用户案例文件,描述图书馆界与相关部门的真实使用案例、个案研究、推广与传播行动
·描述相关技术要件的文件,包括词表与本体(如SKOS),目的在于确定延伸或互操作需求,帮助确定可能需要的其他标准。

[update 2010-05-24] Via pinoke在书社会的分享

[update 2012-6-29] 小组最终报告及“数据集、属性值词汇及元数据元素集”和“用例”已由娄秀明译成中文

图书馆关联数据,哪些值得关注?

早在2008年,瑞典国家图书馆率先把瑞典联合目录LIBRIS发布为关联数据,使用了FOAF, SKOS, Bibliontology的混合体,以RDF实现了部分FRBR算法,并计划链接到外部,包括DBPedia/Wikipedia,以及本地主题到LCSH。[1]
2009年上半年,LCSH(id.loc.gov)与DDC(dewey.info)相继以SKOS发布。
2009年9月,OCLC把虚拟国际规范档VIAF(viaf.org)发布为关联数据,对URI采用HTTP 303重定向,采用FOAF。[2]
进入2010年4月,7日匈牙利国家图书馆宣布,其全部图书馆目录、数字图书馆馆藏及名称/主题规范数据发布为关联数据,书目RDFDC、人名规范foaf、主题词与地理名称skos。
16日德国国家图书馆宣布了采用关联数据的规范数据原型系统,个人名称规范FOAF,主题SKOS及DC,且已链接到Wikipedia、DBPedia及VIAF。[4]

图书馆发布关联数据意义何在,我们需要关注什么?Ed Summers,这位率先把LCSH发布为关联数据lcsh.info的LC雇员,针对最近的进展,提出“现在已经有足够的图书馆关联数据,可以审视使用模式,看是否有可以努力的新兴最佳实践”。并指出如下几点,认为尤其值得关注:[5]

What vocabularies are being used, and is there emerging consensus about which to use? 什么词表在被使用,有没有共识?
What licenses (if any) are associated with the data? 这些数据用什么许可(如果有的话)?
How much linking and interlinking is going on? 有多少链接及互链?
What sorts of mechanisms does the publisher offer for getting the data: sitemap, feeds, SPARQL, bulk download? 发布者提供什么机制来获取这些数据:网站地图、(RSS)种子、SPARQL、批量下载?
What is the quality of the data: granularity, link integrity, vocabulary usage. 数据质量如何:粒度、关联完整性、词表使用?
What approaches to identifiers for “real world things” have publishers taken: hash, slash, 303, PURLs, reuse of traditional identifiers, etc. 发布者采用什么方法给“真实世界物品”指定标识符:哈希表、斜杠(?)、(HTTP) 303、PURL、传统标识符重用等。
What are the relative sizes of the pools of library linked data? 整个图书馆关联数据相对规模有多大?
How are updates being managed? 如何管理更新?

注:
[1] Martin Malmsten: Swedish union catalogue available as Linked Data. GMANE, 2008-08-21.
http://article.gmane.org/gmane.culture.libraries.ngc4lib/4617
[2] Thom Hickey: VIAF as linked data. Outgoing, September 25, 2009.
http://outgoing.typepad.com/outgoing/2009/09/viaf-as-linked-data.html
[3] Hungarian National Library published its entire OPAC and Digital Library as Linked Data
http://lists.w3.org/Archives/Public/public-lod/2010Apr/0155.html
[4] Adrian Pohl: Linked Open Data prototype at the German National Library. NGC4LIB, 16 Apr 2010.
https://listserv.nd.edu/cgi-bin/wa?A2=ind1004&L=NGC4LIB&T=0&F=&S=&P=31709
[5] Ed Summers: research ideas for library linked data. INKDROID, April 18, 2010.
http://inkdroid.org/journal/2010/04/18/research-ideas-for-library-linked-data/