OCLC以关联数据开放1.94亿书目作品

OCLC技术布道者Richard Wallis日前迫不及待地在自己的博客上预告,OCLC将发布1.94亿关联数据“书目作品”描述,以“WorldCat关联数据探索”(WorldCat Linked Data Explorer)界面提供。据称这是WorldCat关联数据的首次产品发布(This is the first production release of WorldCat infrastructure delivering linked data.)——我理解,之前worldcat.org只是在原细览页面下方加了个关联数据栏目(参见“WorldCat也关联数据了”,2012年6月21日),这次是经整理的WorldCat“作品”完全以关联数据方式发布。
这里的“作品”可以认为是FRBR概念:“作品是资源的高级描述,包含如作者、名称[题名]、描述、主题等作品所有版本共同的信息。描述格式基于Schema.org词汇的创作作品类所定义的某些属性。在WorldCat作品描述中,也包括到WorldCat中已经共享的、有OCLC号的个别版本的[关联数据]链接”。而worldcat.org中的则是FRBR载体表现记录。
Wallis提供的一个作品实例是:Zen and the art of motorcycle maintenance : an inquiry into values (有墙,https同样无法访问)
“WorldCat关联数据探索”界面并非给最终用户使用,除了给人看的HTML格式外,提供Turtle、N-Triple、JSON-LD和RDF/XML四种关联数据格式
所提供的实例使用如下schema.org词汇
类型(type):http://schema.org/CreativeWork 和 http://schema.org/Book(CreativeWork的下位类型)
关于(about,主题):http://schema.org/about
创作者(creator):http://schema.org/creator
描述(description,简介):http://schema.org/description
名称(name,题名):http://schema.org/name
作品实例(workExample,载体表现):http://schema.org/workExample(尚未批准的schema书目扩展?上述链接无效)

目前提供的是预览,未来数周内功能将有较大改进。现在“作品实例”已经采用了真实的标识符(如http://www.worldcat.org/oclc/191931910),可以链接到worldcat.org。而“关于”(主题)和“创作者”的标识符还是临时的(hash-URI,由作品URI和名称组成,如http://experiment.worldcat.org/entity/work/data/12477503#Topic/fathers_and_sons或http://experiment.worldcat.org/entity/work/data/12477503#Person/pirsig_robert),点击后出现placeholder reference提示框。据称未来数周内,人名将链接到虚拟国际规范档(VIAF,如http://viaf.org/viaf/78757182)。[未来主题将链接到id.loc.gov,或是FAST?]
目前发布的作品URI是永久的,采用开放数据许可(ODC-BY)。现在得到作品URI只有一个方法,就是通过xISBN、xOCLCNum服务返回的作品ID,组成作品URI:http://worldcat.org/entity/work/id/作品ID。数周内,worldcat.org已经发布的关联数据部分会嵌入到“作品”的链接。比如OCLC号为5347480的书目记录(载体表现):http://www.worldcat.org/oclc/5347480,会有:
schema:exampleOfWork http://worldcat.org/entity/work/id/12477503
“从那时起,OCLC以及其他机构将开始使用WorldCat作品URI及其描述,作为核心稳定的基础,建设图书馆领域内的实体间关系网。这个数据网,在未来岁月中,将激励数据共享,以及消费这些数据的应用与界面设计”。

via Data Liberate: OCLC Preview 194 Million Open Bibliographic Work Descriptions / Richard Wallis (2014-2-25)

附记:WorldCat统计页面只有其Knowledge Base数据,没有完整的WorldCat数据。按OCLC年度报告(Annual Report 2011/2012),截止2012.6.30的WorldCat统计:
作品数 Works 176,302,014(1.763亿)
记录数 Manifestations (records) 273,703,842(2.737亿)
馆藏数 Total holdings 1,854,243,605(18.54亿)

[update 2014-5-21] 2014.4.28 正式发布
OCLC News Release: OCLC releases WorldCat Works as linked data (DUBLIN, Ohio, 28 April 2014)
Data Liberate: WorldCat Works – 197 Million Nuggets of Linked Data / Richard Wallis (April 28, 2014)
Hangingtogether.Org: The Most Important Thing You Haven’t Heard Of / Roy Tennant (April 29, 2014)

VIAF扩展名称数据来源(及与ISNI的链接)

虚拟国际规范档(VIAF)于2012年4月成为OCLC的服务(参见:虚拟国际规范档移交OCLC,2012年4月5日),OCLC正不断地对其加以强化(参见:xA:OCLC扩展虚拟国际规范档,2012年4月18日)。以往向VIAF提交数据的主要是图书馆、尤其是国家图书馆,今年新公布的一项活动是“学者向VIAF贡献”:
Scholars’ Contributions to VIAF
OCLC方面通过此活动强化VIAF,主要是增加同一名称的不同形式,而学者方面一则可采用VIAF的URI作为其数据库等应用中涉及人物(作者)的永久标识,二则通过VIAF把名称方面的学术成果向更广泛的领域传播。同时对OCLC来说,采用VIAF URI的越多,其未来在语义网/关联数据这一领域的作用就越大。
在2013年5月VIAF委员会会议上,OCLC的Karen Smith-Yoshimura和范德比尔特大学(U. Vanderbilt)的David Michelson报告了近年来OCLC研究部与该校叙利亚研究学者的合作(试验),目的在于向VIAF已有名称中增加叙利亚文字,并增加新名称。叙利亚语是一种阿拉伯语方言,发源于公元一世纪的美索不达米亚王国,兴盛于波斯和罗马帝国,据称叙利亚文本是古希腊和古罗马之后四至七世纪的第三大遗存文字语料库。参见会议PPT:Scholars’ Contributions to VIAF(2013-05-02)
上月OCLC宣布了该活动的首个合作成果,加入珀尔修斯目录(Perseus Catalog)的古希腊和古罗马人物名称。或许由于珀尔修斯数字图书馆项目采用MADS作为名称规范元数据标准的缘故,数据导入与处理比较简单——OCLC本身对VIAF的扩展也采用MADS格式。

从VIAF网页看,由珀尔修斯目录新增加的名称放在交替名称形式(400字段)。如特米斯丢的VIAF页:
Themistius
在该网页中还可以看到国际标准名称标识(ISNI)的测试链接,链接到OCLC荷兰网站。而在ISNI官网查询(如查16位ISNI:0000 0001 0928 6445),得到的结果页面与OCLC荷兰显示的完全相同,其中也注明数据来自VIAF并有链接(还有其他一些没有链接的来源)。
不同来源的名称ID相互关联,无疑将促进网络名称规范控制。

via hangingtogether.org: First Scholars’ Contributions to VIAF: Greek! (2013-11-25)

[2013-12-10 update]参见OCLC正在进行的另一项名称规范活动:Registering Researchers in Authority Files,领头的是Karen Smith-Yoshimura,成员是Thom Hickey。原有的名称规范主要来自图书,论文等作者通常不在其列,这项野心勃勃的计划就是要一网打尽,形成完整的互联网名称规范。

珀尔修斯数字图书馆(从人类可读信息到机器生成知识)

珀尔修斯数字图书馆项目(Perseus Digital Library Project)始于1985年,专注古希腊及古罗马的历史、文学与文化,是一个由领域专家主持的数字化项目。主编Gregory R. Crane是塔夫茨大学教授,一位数字人文的早期实践者。
项目于今年5月发布了珀尔修斯目录(The Perseus Catalog) ,目标是包括所有主要的古希腊和古罗马作者、每人至少收录一部联机版作品。发布当时包括3,679部作品,以及1.1万余全文链接(其中谷歌图书6,419部、互联网档案5,098部、HathiTrust为593部)。
目录细览页有全文时,按行分页显示,左栏为文字导航、上面为条形导航。点击全文中任意词,会跳转到该词的分析页,包括词典解释、出现统计等。如埃斯库罗斯的希腊文版《阿伽门农》

该目录采用了图情与IT领域的不少通用技术,有不少可圈可点之处:
元数据格式:通用的采用LC的MODS和MADS,专业方面采用Homer Multitext Project开发的Canonical Text Services及CTS-URN protocols(应该是做某些强化)
软件界面:采用开源的Blacklight及Solr
输出格式:目前为HTML和ATOM,但对所有文本组、作品、版本及译本提供稳定、可链接的标准URI后续版本将提供RDF三元组(语义网与关联数据世界又将多一个数据来源)
目前该项目已把MADS格式的作者规范数据贡献给了虚拟国际规范档(VIAF),未来也将在目录中提供到VIAF的链接。

项目网站的Research部分谈到其使命,最后说明其关注三个方面,并有详细解释:
– 人类可读信息
– 机器可操作知识
– 机器生成知识
从前面部分行文看,似乎写于2008-2009年,尽管没有出现语义网或关联数据字样,但后两个方面应该正是抓住了这一趋势。

参见:珀尔修斯数字图书馆目录项目的博客:The Perseus Catalog Blog
Announcing The Perseus Catalog, release 1.0 / by LISA M. CERRATO (2013-5-10)
Contribution to the Virtual International Authority File / by ANNA KROHN (2013-11-25)