OCLC以关联数据开放1.94亿书目作品

OCLC技术布道者Richard Wallis日前迫不及待地在自己的博客上预告,OCLC将发布1.94亿关联数据“书目作品”描述,以“WorldCat关联数据探索”(WorldCat Linked Data Explorer)界面提供。据称这是WorldCat关联数据的首次产品发布(This is the first production release of WorldCat infrastructure delivering linked data.)——我理解,之前worldcat.org只是在原细览页面下方加了个关联数据栏目(参见“WorldCat也关联数据了”,2012年6月21日),这次是经整理的WorldCat“作品”完全以关联数据方式发布。
这里的“作品”可以认为是FRBR概念:“作品是资源的高级描述,包含如作者、名称[题名]、描述、主题等作品所有版本共同的信息。描述格式基于Schema.org词汇的创作作品类所定义的某些属性。在WorldCat作品描述中,也包括到WorldCat中已经共享的、有OCLC号的个别版本的[关联数据]链接”。而worldcat.org中的则是FRBR载体表现记录。
Wallis提供的一个作品实例是:Zen and the art of motorcycle maintenance : an inquiry into values (有墙,https同样无法访问)
“WorldCat关联数据探索”界面并非给最终用户使用,除了给人看的HTML格式外,提供Turtle、N-Triple、JSON-LD和RDF/XML四种关联数据格式
所提供的实例使用如下schema.org词汇
类型(type):http://schema.org/CreativeWork 和 http://schema.org/Book(CreativeWork的下位类型)
关于(about,主题):http://schema.org/about
创作者(creator):http://schema.org/creator
描述(description,简介):http://schema.org/description
名称(name,题名):http://schema.org/name
作品实例(workExample,载体表现):http://schema.org/workExample(尚未批准的schema书目扩展?上述链接无效)

目前提供的是预览,未来数周内功能将有较大改进。现在“作品实例”已经采用了真实的标识符(如http://www.worldcat.org/oclc/191931910),可以链接到worldcat.org。而“关于”(主题)和“创作者”的标识符还是临时的(hash-URI,由作品URI和名称组成,如http://experiment.worldcat.org/entity/work/data/12477503#Topic/fathers_and_sons或http://experiment.worldcat.org/entity/work/data/12477503#Person/pirsig_robert),点击后出现placeholder reference提示框。据称未来数周内,人名将链接到虚拟国际规范档(VIAF,如http://viaf.org/viaf/78757182)。[未来主题将链接到id.loc.gov,或是FAST?]
目前发布的作品URI是永久的,采用开放数据许可(ODC-BY)。现在得到作品URI只有一个方法,就是通过xISBN、xOCLCNum服务返回的作品ID,组成作品URI:http://worldcat.org/entity/work/id/作品ID。数周内,worldcat.org已经发布的关联数据部分会嵌入到“作品”的链接。比如OCLC号为5347480的书目记录(载体表现):http://www.worldcat.org/oclc/5347480,会有:
schema:exampleOfWork http://worldcat.org/entity/work/id/12477503
“从那时起,OCLC以及其他机构将开始使用WorldCat作品URI及其描述,作为核心稳定的基础,建设图书馆领域内的实体间关系网。这个数据网,在未来岁月中,将激励数据共享,以及消费这些数据的应用与界面设计”。

via Data Liberate: OCLC Preview 194 Million Open Bibliographic Work Descriptions / Richard Wallis (2014-2-25)

附记:WorldCat统计页面只有其Knowledge Base数据,没有完整的WorldCat数据。按OCLC年度报告(Annual Report 2011/2012),截止2012.6.30的WorldCat统计:
作品数 Works 176,302,014(1.763亿)
记录数 Manifestations (records) 273,703,842(2.737亿)
馆藏数 Total holdings 1,854,243,605(18.54亿)

[update 2014-5-21] 2014.4.28 正式发布
OCLC News Release: OCLC releases WorldCat Works as linked data (DUBLIN, Ohio, 28 April 2014)
Data Liberate: WorldCat Works – 197 Million Nuggets of Linked Data / Richard Wallis (April 28, 2014)
Hangingtogether.Org: The Most Important Thing You Haven’t Heard Of / Roy Tennant (April 29, 2014)

馆藏信息的不同表示方案

Diane Hillmann在博客上介绍她在ALA仲冬会议上的报告,看了三个报告,署名都是她、Gordon Dunsire和Jon Phipps三个人。第一个针对各种馆藏表示方案。报告的结论是:会有一个答案么?不见得,我们已不再生活在一个“通用”(one-size-fits-all)世界中。【这也是我近来的想法】

A Consideration of Library Holdings in the World Beyond MARC(有墙)
介绍现有及研制中的不同元数据方案中的馆藏信息表示法。她特别称赞了德国国家图书馆维护的一个馆藏标准文献维基:Collection of Holdings Ontologies, Vocabularies, Standards【注:现列出本体/词表12个,标准3个,格式3个,其他3个,与报告所提及的不尽相同】。

– 模拟世界中的馆藏标准
MARC21馆藏数据格式(简称MFHD–MARC 21 Format for Holdings Data)
NISO Z39.71-2006 http://www.niso.org/standards/z39-71-2006/
ISO10324:1997

– 进行中项目
德国国家图书馆:Scope of Holdings

ONIX连续出版物覆盖说明(ONIX for Serials Coverage Statement) – Version 1.0(2012年3月出版)——部分基于MFHD,较为复杂【注:一直以为,出版界的ONIX,元数据复杂程度绝不亚于MARC,但各类取值词表较MARC开放】

Schema.org的图书馆馆藏【注:即”书目扩展”:Holdings via Offer ,从其维基的词表建议(Vocabulary Proposals)页看,似乎此建议尚未提出;参见:解惑Schema书目扩展(2014年1月29日)】。共五个建议属性:
Library = seller
Call #/Shelf # = sku(Stock Keeping Unit)
Barcode = serial number
Shelving location = availableAtOrFrom
Item status = availability【注:有4种获得状态:可借InStock,借出中OutOfStock,订购中PreOrder,参考(馆内使用)InStoreOnly】

MMA【即作者的Metadata Management Associates】:基于MARC21书目格式的开放元数据注册(OMR, open metadata registry)

— 另外博文中说,她之前的报告人Rebecca Guenther讲了BibFrame的馆藏表示法。她说目前还非常简单,仅限于非连续出版物的简单馆藏,连续出版物馆藏如何集成到BF模型当拭目以待。【注:查到ALA仲冬会议网站的“馆藏信息论坛”(Holdings Information Forum),有2个报告的简介。其中说明BF馆藏信息采用注释(Annotations)及两个类HeldMaterial和HeldItem】
【注:BF注释类针对馆藏的子类“拥有资料”(HeldMaterial)有8个属性,其下再有子类“拥有馆藏”(HeldItem)有11个子属性。在类别视图中,这19个属性集中在“馆藏注释信息”(Holdings Annotation information)部分。参见:Bibframe.org的类与属性发布(2014年1月27日)】

via Metadata Matters: Talking Points Report / Diane Hillmann (February 3, 2014)

解惑Schema书目扩展

OCLC在2012年中发布了WorldCat关联数据,采用搜索引擎巨头的标准Schema.org作元数据标记,对Schema.org没有的词汇(vocabulary)做了实验性的“图书馆扩展”。后来,“图书馆扩展”(“library” extension)变成了“书目扩展”(Bib Extend),一个W3C小组(Schema Bib Extend Community Group,简称SchemaBibEx):“小组的任务是讨论与准备扩展Schema.org规范的建议,以改进书目信息标记与共享。小组寻求对向W3C WebSchemas小组建议的共享与支持,本身不产生技术规范”。
看小组网站,创建人即WorldCat关联数据项目的重要人物Richard Wallis,对OCLC发起这个小组的意图有所猜测。发起会议为2012年9月,原定为期一年却仍结束无期;小组有持续的会议,却没看到提出什么建议。还在其他场合看到一些讨论甚至争论——总之,对SchemaBibEx有太多不明之处。
这几天仔细看《信息标准季刊》2013年冬辑,Wallis的文章基本可以解惑。从下内容摘自该文不同部分,编号及小标题自拟【点评】:

Richard Wallis: Schema Bib Extend. ISQ:Information Standards Quarterly, Winter 2013, Vol.25, issue 4:30-32

一、任务
一个W3C社区小组,专注在书目领域建立共识,提交建议给WebSchemas小组,扩展Schema.org词表,强化其描述书目资源的能力。

二、成立缘由
依照Schema.org背后那些(机构)的指引,在W3C的帮助下成立开放小组。W3C相信,来自兴趣方的小组建议会比个人带来更多份量【应该说是多方比OCLC一方更有份量】。同时,这样一个小组会带来影响建议形成过程的有信息量的讨论和使用案例。

三、小组成员
成员超过80人,代表对书目领域感兴趣的个人或机构。所代表的机构包括数个国家图书馆、图书馆系统厂商、出版者、W3C、大学、合作机构和联盟。

四、已提出的建议
小组定期召开电话会议,通过社区wiki,已形成并提交数个有关馆藏引文有声书专题的建议给WebSchemas小组。

五、思路变化
最初建议花大量精力识别很多Schema.org中没有的书目词汇术语【对照法】。
(现在)通过把Schema.org词表用于在书目领域中描述资源及其关系,弄清并探索问题。在此过程中,检查书目资源的样例网页,看什么Schema.org标记合适。这一方法的结果,一是认识到Schema.org有多么适合描述我们的资源,二是识别了特定的覆盖缺口——比如没有有声书类。【查遗补缺法:用Schema.org标记书目记录,从而了解缺少什么】
有些案例,最初推测需要新类/属性,后来清楚只要有建议、文档或样例就够了;另外一些案例,所需的只是建议对Schema.org文档中描述做出微调。【换言之,以前对Schema了解不够】
以“馆藏”为例,最初想法可能导致建议提出图书馆专用的类与属性。但是使用Schema.org的Offer类——对其文档描述做某些调节以考虑到offers除了出售外还可能是出借或共享——就足以满足图书馆的使用案例——可获取。随后剩下的就是某些细致的具体工作,用新属性描述图书馆特定的事比如架标、索取号等。【也就是说,尽可能用已有类及属性,可做些微调,或在现有类下增加某些属性】

六、未来预计
尽管有很多事情要做,在小组第二年结束前,可能大部分问题都被处理了。

七、采用
除了OCLC的WorldCat,开源图书馆系统如Evergreen和Koha已在其用户界面实施代码以爆光Schema.org。

八、对Schema.org的信心
Schema书目扩展小组及其建议被采用,会导致书目资源在数据网中更一致、更经常地表达,因之更可发现。如果小组达成其目标,Schema.org将更适合书目资源的通用表达。【基本态度:不管其他人怎么想、其他机构怎么做,反正OCLC就直接用Schema.org了】

参见:
WorldCat也关联数据了(2012年6月21日)
Schema.org的图书馆扩展(2012年6月22日)