关联数据词表管理

美国国家信息标准组织(NISO)的《信息标准季刊》(ISQ)自2011年起转为开放获取期刊,过刊也逐步回溯上网提供。最新一期为特刊《图书馆档案馆博物馆关联数据》
Information Standards Quarterly. Vol. 24, Issue 2/3 (Spring/Summer 2012). ISSN 1041-0031
Topic: Linked Data for Libraries, Archives, and Museums

本期由纽约大学元数据服务馆员Corey Harper担任客座内容编辑,专题文章“关联数据词表管理”:
Dunsire, Gordon, Corey Harper, Diane Hillmann, and Jon Phipps. Linked Data Vocabulary Management: Infrastructure Support, Data Integration, and Interoperability. Information Standards Quarterly, 2012 Spring/Summer, 24(2/3):4-13.

对全文意思把握不住。大致理解是:得到应用的元数据词表越来越多,在关联数据环境下其对照crosswalk/映射mapping/校准alignment更为复杂,需要探讨其管理问题。
以下只摘录若干事实,小标题为自拟提示,非照录原文。

应用纲要
(p.5) 2000年最早公开提出:Heery, Rachel, and Manula Patel. Application Profiles: Mixing and Matching Metadata Schemas. Ariadne, issue 25, September 24, 2000 [从该文看,源于UKOLN的DESIRE项目,希望在DC-8上推广]
(p.6) 实践则早自1999年:UKOLN DESIRE元数据注册,欧盟委员会资助的Schemas Project及其后继者CORES。

元数据注册
(p.6) 上述工具以registries著称。2002年DCMI发布其自己的元数据注册,由Heery和Wagner创始开发,其工作激发了很多其他注册,包括“开放元数据注册”。当前版DCMI注册是日本元数据基础体系注册、JISC信息环境元数据体系注册的基础。
(p.7) DCMI注册社区成立于1999年,成为讨论元数据注册的开发、管理和功能需求的集中地。2009年,UKOLN联合DCMI注册社区,进行一项元数据注册用户和所有者的调查,确认当前词表管理与注册间互操作的系统实践和功能需求。调查结果未出版,文中提供部分图表。

开放元数据注册(OMR)
(p.6) 始于NSF资助的美国国家数字图书馆项目──NSDL注册。现在扩展到图书馆界,存有RDA词表,IFLA的ISBD、FR家族模型,MARC21的RDF实验版。目前正致力于词表映射。
(p.8) RDA命名空间创建于2008年。截至2012年7月,元素集和很多取值词表仍处于不定状态。但由于状态和开发史可见,允许实验应用。
RDA命名空间的开发直接刺激了IFLA方面考虑其标准在语义网使用的潜力,因为RDA基于FR家族。ISBD正开发一个DC应用纲要,说明一条构造良好的ISBD的需求,包括元素的必备性、可重复状态,集成元素为高级说明,及取值词表来源。IFLA还在考虑翻译元素集和取值词表的最佳实践,因为它运作于多语言环境,其活动有7种官方语言。部分ISBD和FR家族命名空间已由英语译为西班牙和克罗地亚语。
复用RDA元素被排斥[?],因为自然流程是由模型细化应用。反之,ISBD不复用FR元素,因为对两个标准间的语义关系还没有完全一致的认识。受到校准ISBD和RDA元素以改进互操作工作的激励,已经开始讨论在IFLA和其他社区元数据元素间映射不受约束的命名空间:Dunsire, Gordon. Unconstrained namespaces. In: IFLA Namespaces Technical Group, IFLA Classification and Indexing Newsletter, no.45 (June 2012)(PDF)

欧洲国家图书馆发布目录数据的RDF表述
(p.8) 复用更为领域中性的词表DC、BIBO、FOAF,如LIBRIS、BL、剑桥大学。德国国家图书馆复用DC、FOAF、SKOS及RDA词汇。
(p.9) 特别是剑桥开放元数据项目(COMET),把所有转换工具、代码、过程均置于开源许可下。

元数据映射举例
(p.9) 图3:(书目资源的)数量RDA本体图(ISBD、FRBR、RDA、BIBO、MARC21、DC)

词表“校准”(Alignment)和DCMI词汇管理社区
(p.11) Michael Bergman在DC-2010的主旨报告,从词表激增的势头没有缓和的迹象,看到了对词表校准、同参引(co-referencing)和互操作的新兴需求。对“校准”的关注在某种程度上类似于已有的、在基于记录(通常为XML)的元数据结构间开发对照表(crosswalk)。词汇校准,识别个别元数据元素间的对应及其他关系类型,帮助这些属性应用于其来源词表环境之外。
然而,开放关联数据环境概念的扩展,我们面临的情况比开始所见的更为复杂。……DC-2011会前会……导致了DCMI词汇管理社区的成立。

关联开放词汇项目(LOV)
(p.11-12) Bernard Vatant及其团队收集了现有属性词表信息,探索其相互间关系,如某个是否基于另一个,或者给予扩展、普遍化,或声明和另一词表的等价物。LOV项目的研究成果应用:关联开放数据词表之元数据推荐(Metadata Recommendations For Linked Open Data Vocabularies, version 1.1, 2012-8-19)

DC与Schemar.org映射
(p.12) Bernard也提出建议在DC属性和schema.org词表之间做映射,DCMI的一个工作组正采用GitHub管理这样一个映射原型集:DC – Schema.org Mappings [目前对应6个类、27个属性]

via NISO Press Release: NISO Publishes Themed Issue of Information Standards Quarterly on Linked Data for Libraries, Archives, and Museums (10 Sep 2012)

图书馆标准巴别塔──Schema.org将图书馆连接到web

这是OCLC技术布道者Richard Wallis的观点。
Richard Wallis因关联技术加盟OCLC。在刚结束的IFLA赫尔辛基年会的关联数据圆桌会议(OCLC Linked Data Round Table)上,他在名为《图书馆关联数据进展》报告中宣布,WorldCat关联数据提供一个子集供下载。
参见:WorldCat关联数据子集批量下载(附OCLC的其他关联数据)(2012年8月21日)

报告前面部分列举IFLA 2010年会到2012年会的两年间,图书馆界发布的众多关联数据(附后,包括韩国国家图书馆),后面部分介绍OCLC发布的各个关联数据项目及ODC-BY许可。连接两者的,就是提出“图书馆标准巴别塔”(p.27),以及“Schema.org将图书馆链接到web”(p.61),说明WorldCat采用Schema.org及图书馆扩展的原因。

最近看了各图书馆发布关联数据所用命名空间,对“图书馆标准巴别塔”之说极为认同。Wallis在页面标出的图书馆标准有12个:Bibo, Dublin Core, EAD, FRAD, FRBR, FRSAR, ISBD, MARC, MARCXML, MODS, Onix, RDA;所列不列颠图书馆数据模型(PDF格式)中所采用的命名空间有14个:blt, rdf, rdfs, owl, xsd, dct, isbd, skos, bibo, bio, foaf, event, org, geo。因之OCLC的选择是放弃图书馆标准,采用搜索引擎的标准schema.org,并辅以OCLC的图书馆扩展(library extension,或也有望被纳入schema.org吧)。
参见:Schema.org的图书馆扩展(2012年6月22日)

Wallis的说法是:共享通往Web的道路(p.64):
Schema.org linking libraries to the web(Schema.org将图书馆链接到web)
no replacement for rich bibliographic metadata(不取代丰富的书目元数据)
easily consumed & merged across domains(易于跨域消费与合并)
a powerful complement to it(指图书馆扩展)

于是想,LC书目框架转换行动,会弄出一个什么样的模型呢?给巴别塔添砖加瓦吗,还是像schema.org那样来个一统图书馆天下?

PPT:Richard Wallis. Library Linked Data Progress. IFLA Helsinki, 13 August 2012(有墙)
OCLC官网消息: OCLC provides downloadable linked data file for the 1 million most widely held works in WorldCat, 14 August 2012
Via Data Liberate: Get Yourself a Linked Data Piece of WorldCat to Play With / By Richard Wallis on August 12, 2012

会议其他报告:IFLA语义网特别兴趣小组(SWSIG)网站消息,Presentations from OCLC Linked Data round table available
(均在目前被墙的slideshare)
– Neil Wilson, British Library – http://www.slideshare.net/nw13/oclc-linked-data-roundtable-event-ifla-2012
– Emmanuelle Bermes, Centre Pompidou – http://www.slideshare.net/Figoblog/ifla-2012-oclc-linked-data-round-table
– Martin Malmsten, National Library of Sweden – http://www.slideshare.net/geckomarma/ifla-2012-oclc-semantic-web-roundtable

———-图书馆关联数据进展———-
Richard Wallis报告中列举的IFLA 2010年会到2012年会间发布的图书馆关联数据:
data.bnf.fr(法国国家图书馆)
datos enlazados en la BNE(西班牙国家图书馆)
Europeana Linked Open Data
Web NDL Authorities(日本国会图书馆)
LC Linked Data Service(美国国会图书馆)
The Open Library(thedatahub.org/dataset/openlibrary)
Zeitschriftendatanbank: Linked Data(德国:期刊资料库)
Linked Data Service of the German National Library(德国国家图书馆)
National Library of Korea: Linked Data(韩国国家图书馆)
VIAF
DDC
FAST Linked Data
British National Bibliography(英国国家书目)
W3C Library Linked Data Incubator Group
LC: Bibliographic Framework Transition Initiative
WorldCat

WorldCat关联数据子集批量下载(附OCLC的其他关联数据)

在刚结束的IFLA年会上,Richard Wallis宣布提供WorldCat关联数据的批量下载──自然不会是全部,而是一个子集,给大家玩玩,可在本地安装后用SPARQL做试验:
书目记录数:120万(对照:WorldCat全部记录2.5亿)
入选条件:超过250个图书馆收藏
文件大小:1GB
三元组数:8千万
格式:RDF n-triples
数据集描述:WorldCat VoID Dataset Description(含dataDump下载网址)

via 书社会远洋过客转贴 2012-8-18
原博文:Data Liberate: Get Yourself a Linked Data Piece of WorldCat to Play With / By Richard Wallis on August 12, 2012
OCLC官网消息: OCLC provides downloadable linked data file for the 1 million most widely held works in WorldCat, 14 August 2012

——–关于OCLC及其关联数据的八卦———-
OCLC一直很注重对自己权利的保护,事例如:
– 2003年图书馆酒店商标案
参见:OCLC与图书馆酒店的故事:版权与商标(2006年9月25日)

OCLC与图书馆酒店的故事:版权与商标


– 2009年闹得沸沸扬扬的WorldCat记录使用政策
参见:编目与元数据2009(2010年1月3日)
/posts/2010/0103/86
圖書館觀點:關於「WorldCat書目記錄使用及轉出政策」(1st Apr 2009),有墙
后续影响有:瑞典国家图书馆终止加入WorldCat谈判(2011年12月22日)
/posts/2011/1222/1990

OCLC大规模加入此轮关联数据潮流,不过对权利的保护一如既往:
– VIAF提供批量下载,但那只是OCLC的一项服务,内容并不属于OCLC
参见:虚拟国际规范档移交OCLC(2012年4月5日)
/posts/2012/0405/2112
– FAST提供批量下载,是LCSH部分内容的分面版,内容也不属于OCLC
参见:FAST: 主题词分面应用(2007年11月28日)
/posts/2007/1128/392
– DDC23版全部23,000多个分类号和类名在dewey.info上发布为关联数据。得知后在网站上找了半天,也没有发现完整的DDC(只有原来的千分表)。后来远洋师告知,只是assignable,并不免费公开DDC──那还是要卖银子的。
– 与DDC几乎同时发布的还有WorldCat所有书目记录,显示在每条记录的详细页面下
参见:WorldCat也关联数据了(2012年6月21日)
/posts/2012/0621/2221
– 下载:WorldCat子集
– 关联数据发布中采用开放数据许可ODC-BY而非公共域许可CC0
参见:虚拟国际规范档数据集以ODC-By许可提供(2012年5月5日)
/posts/2012/0505/2164
官网消息:OCLC recommends Open Data Commons Attribution License (ODC-BY) for WorldCat data (6 August 2012)
CC网站对ODC-BY和CC0的分析:Library catalog metadata: Open licensing or public domain? / Timothy Vollmer (August 14th, 2012) ,感谢Nalsi提供信息
ODC-BY: Open Data Commons – Attribution License
[update] 指南:OCLC linked data attribution guidelines