解惑Schema书目扩展

OCLC在2012年中发布了WorldCat关联数据,采用搜索引擎巨头的标准Schema.org作元数据标记,对Schema.org没有的词汇(vocabulary)做了实验性的“图书馆扩展”。后来,“图书馆扩展”(“library” extension)变成了“书目扩展”(Bib Extend),一个W3C小组(Schema Bib Extend Community Group,简称SchemaBibEx):“小组的任务是讨论与准备扩展Schema.org规范的建议,以改进书目信息标记与共享。小组寻求对向W3C WebSchemas小组建议的共享与支持,本身不产生技术规范”。
看小组网站,创建人即WorldCat关联数据项目的重要人物Richard Wallis,对OCLC发起这个小组的意图有所猜测。发起会议为2012年9月,原定为期一年却仍结束无期;小组有持续的会议,却没看到提出什么建议。还在其他场合看到一些讨论甚至争论——总之,对SchemaBibEx有太多不明之处。
这几天仔细看《信息标准季刊》2013年冬辑,Wallis的文章基本可以解惑。从下内容摘自该文不同部分,编号及小标题自拟【点评】:

Richard Wallis: Schema Bib Extend. ISQ:Information Standards Quarterly, Winter 2013, Vol.25, issue 4:30-32

一、任务
一个W3C社区小组,专注在书目领域建立共识,提交建议给WebSchemas小组,扩展Schema.org词表,强化其描述书目资源的能力。

二、成立缘由
依照Schema.org背后那些(机构)的指引,在W3C的帮助下成立开放小组。W3C相信,来自兴趣方的小组建议会比个人带来更多份量【应该说是多方比OCLC一方更有份量】。同时,这样一个小组会带来影响建议形成过程的有信息量的讨论和使用案例。

三、小组成员
成员超过80人,代表对书目领域感兴趣的个人或机构。所代表的机构包括数个国家图书馆、图书馆系统厂商、出版者、W3C、大学、合作机构和联盟。

四、已提出的建议
小组定期召开电话会议,通过社区wiki,已形成并提交数个有关馆藏引文有声书专题的建议给WebSchemas小组。

五、思路变化
最初建议花大量精力识别很多Schema.org中没有的书目词汇术语【对照法】。
(现在)通过把Schema.org词表用于在书目领域中描述资源及其关系,弄清并探索问题。在此过程中,检查书目资源的样例网页,看什么Schema.org标记合适。这一方法的结果,一是认识到Schema.org有多么适合描述我们的资源,二是识别了特定的覆盖缺口——比如没有有声书类。【查遗补缺法:用Schema.org标记书目记录,从而了解缺少什么】
有些案例,最初推测需要新类/属性,后来清楚只要有建议、文档或样例就够了;另外一些案例,所需的只是建议对Schema.org文档中描述做出微调。【换言之,以前对Schema了解不够】
以“馆藏”为例,最初想法可能导致建议提出图书馆专用的类与属性。但是使用Schema.org的Offer类——对其文档描述做某些调节以考虑到offers除了出售外还可能是出借或共享——就足以满足图书馆的使用案例——可获取。随后剩下的就是某些细致的具体工作,用新属性描述图书馆特定的事比如架标、索取号等。【也就是说,尽可能用已有类及属性,可做些微调,或在现有类下增加某些属性】

六、未来预计
尽管有很多事情要做,在小组第二年结束前,可能大部分问题都被处理了。

七、采用
除了OCLC的WorldCat,开源图书馆系统如Evergreen和Koha已在其用户界面实施代码以爆光Schema.org。

八、对Schema.org的信心
Schema书目扩展小组及其建议被采用,会导致书目资源在数据网中更一致、更经常地表达,因之更可发现。如果小组达成其目标,Schema.org将更适合书目资源的通用表达。【基本态度:不管其他人怎么想、其他机构怎么做,反正OCLC就直接用Schema.org了】

参见:
WorldCat也关联数据了(2012年6月21日)
Schema.org的图书馆扩展(2012年6月22日)

《信息标准季刊》专辑:书目数据交换进展(围绕BIBFRAME)

《信息标准季刊》由美国信息标准组织(NISO)主办、开放获取,2013冬辑为“书目数据交换进展”专题:
ISQ:Information Standards Quarterly (Winter 2013, Vol.25 issue 4)
Topic: Evolution of Bibliographic Data Exchange

本辑邀请OCLC数据服务与WorldCat质量部执行主任Ted Fons作为客座主编(导论p.4-5),主要围绕美国国会图书馆开发中的BIBFRAME并有所扩展,作者分别来自德国、美国和法国,显示国际化视野。第1页是BIBFRAME发展年表和数据模型核心类图,题为:BIBFRAME不仅走、而且跑(LC BIBFRAME: Not Just Walking But Running)。专题包括3篇文章、1篇访谈,另有短文介绍BIBFRAME的潜在竞争对手(Schema Bib Extend),以及NISO自己的书目路标行动报告(Bibliograpic Roadmap Initiative,参见:NISO得到梅隆基金资助,评估新书目框架现状及未来需求,2012年11月9日 )。

(p.6)特写:当前书目模型适合集成到网络么?
Are Current Bibliographic Models Suitable for Integration with the Web? / Lars Svensson (German National Library)
(p.14)观点:取代MARC:从何处开始?
Replacing MARC: Where to Start / Paul Moss (OCLC)
(p.17)实践:变革的机会:BIBFRAME在乔治·华盛顿大学、一个早期实验者
A Transformative Opportunity: BIBFRAME at the George Washington University, an Early Experimenter
(p.22)访谈:访谈法国国家图书馆书目与数字信息部主任吉尔达·艾里恩
Interview with Gildas Illien, Director, Bibliographic and Digital Information Department, Bibliotheque nationale de France (BnF)
(p.30)实践:Schema书目扩展
Schema Bib Extend / Richard Wallis (OCLC)
(p.33)NISO报告:通过新交换环境绘制航线:NISO书目路标行动
Charting a Course through a New Exchange Environment: The Niso Bibliograpic Roadmap Initiative / Todd Carpenter

via: Special Information Standards Quarterly Issue on the Evolution of Bibliographic Data Exchange Published by NISO (16 Dec 2013)

关联数据词表管理

美国国家信息标准组织(NISO)的《信息标准季刊》(ISQ)自2011年起转为开放获取期刊,过刊也逐步回溯上网提供。最新一期为特刊《图书馆档案馆博物馆关联数据》
Information Standards Quarterly. Vol. 24, Issue 2/3 (Spring/Summer 2012). ISSN 1041-0031
Topic: Linked Data for Libraries, Archives, and Museums

本期由纽约大学元数据服务馆员Corey Harper担任客座内容编辑,专题文章“关联数据词表管理”:
Dunsire, Gordon, Corey Harper, Diane Hillmann, and Jon Phipps. Linked Data Vocabulary Management: Infrastructure Support, Data Integration, and Interoperability. Information Standards Quarterly, 2012 Spring/Summer, 24(2/3):4-13.

对全文意思把握不住。大致理解是:得到应用的元数据词表越来越多,在关联数据环境下其对照crosswalk/映射mapping/校准alignment更为复杂,需要探讨其管理问题。
以下只摘录若干事实,小标题为自拟提示,非照录原文。

应用纲要
(p.5) 2000年最早公开提出:Heery, Rachel, and Manula Patel. Application Profiles: Mixing and Matching Metadata Schemas. Ariadne, issue 25, September 24, 2000 [从该文看,源于UKOLN的DESIRE项目,希望在DC-8上推广]
(p.6) 实践则早自1999年:UKOLN DESIRE元数据注册,欧盟委员会资助的Schemas Project及其后继者CORES。

元数据注册
(p.6) 上述工具以registries著称。2002年DCMI发布其自己的元数据注册,由Heery和Wagner创始开发,其工作激发了很多其他注册,包括“开放元数据注册”。当前版DCMI注册是日本元数据基础体系注册、JISC信息环境元数据体系注册的基础。
(p.7) DCMI注册社区成立于1999年,成为讨论元数据注册的开发、管理和功能需求的集中地。2009年,UKOLN联合DCMI注册社区,进行一项元数据注册用户和所有者的调查,确认当前词表管理与注册间互操作的系统实践和功能需求。调查结果未出版,文中提供部分图表。

开放元数据注册(OMR)
(p.6) 始于NSF资助的美国国家数字图书馆项目──NSDL注册。现在扩展到图书馆界,存有RDA词表,IFLA的ISBD、FR家族模型,MARC21的RDF实验版。目前正致力于词表映射。
(p.8) RDA命名空间创建于2008年。截至2012年7月,元素集和很多取值词表仍处于不定状态。但由于状态和开发史可见,允许实验应用。
RDA命名空间的开发直接刺激了IFLA方面考虑其标准在语义网使用的潜力,因为RDA基于FR家族。ISBD正开发一个DC应用纲要,说明一条构造良好的ISBD的需求,包括元素的必备性、可重复状态,集成元素为高级说明,及取值词表来源。IFLA还在考虑翻译元素集和取值词表的最佳实践,因为它运作于多语言环境,其活动有7种官方语言。部分ISBD和FR家族命名空间已由英语译为西班牙和克罗地亚语。
复用RDA元素被排斥[?],因为自然流程是由模型细化应用。反之,ISBD不复用FR元素,因为对两个标准间的语义关系还没有完全一致的认识。受到校准ISBD和RDA元素以改进互操作工作的激励,已经开始讨论在IFLA和其他社区元数据元素间映射不受约束的命名空间:Dunsire, Gordon. Unconstrained namespaces. In: IFLA Namespaces Technical Group, IFLA Classification and Indexing Newsletter, no.45 (June 2012)(PDF)

欧洲国家图书馆发布目录数据的RDF表述
(p.8) 复用更为领域中性的词表DC、BIBO、FOAF,如LIBRIS、BL、剑桥大学。德国国家图书馆复用DC、FOAF、SKOS及RDA词汇。
(p.9) 特别是剑桥开放元数据项目(COMET),把所有转换工具、代码、过程均置于开源许可下。

元数据映射举例
(p.9) 图3:(书目资源的)数量RDA本体图(ISBD、FRBR、RDA、BIBO、MARC21、DC)

词表“校准”(Alignment)和DCMI词汇管理社区
(p.11) Michael Bergman在DC-2010的主旨报告,从词表激增的势头没有缓和的迹象,看到了对词表校准、同参引(co-referencing)和互操作的新兴需求。对“校准”的关注在某种程度上类似于已有的、在基于记录(通常为XML)的元数据结构间开发对照表(crosswalk)。词汇校准,识别个别元数据元素间的对应及其他关系类型,帮助这些属性应用于其来源词表环境之外。
然而,开放关联数据环境概念的扩展,我们面临的情况比开始所见的更为复杂。……DC-2011会前会……导致了DCMI词汇管理社区的成立。

关联开放词汇项目(LOV)
(p.11-12) Bernard Vatant及其团队收集了现有属性词表信息,探索其相互间关系,如某个是否基于另一个,或者给予扩展、普遍化,或声明和另一词表的等价物。LOV项目的研究成果应用:关联开放数据词表之元数据推荐(Metadata Recommendations For Linked Open Data Vocabularies, version 1.1, 2012-8-19)

DC与Schemar.org映射
(p.12) Bernard也提出建议在DC属性和schema.org词表之间做映射,DCMI的一个工作组正采用GitHub管理这样一个映射原型集:DC – Schema.org Mappings [目前对应6个类、27个属性]

via NISO Press Release: NISO Publishes Themed Issue of Information Standards Quarterly on Linked Data for Libraries, Archives, and Museums (10 Sep 2012)