WorldCat也关联数据了

一早在书社会看到远洋师说杜威分类法(DDC)23版的23,000多个分类号和类名昨天发布为关联数据,下班后又在微博上看到OCLC北京代表处说worldcat.org引入关联数据:“在查看一份文献的详细书目信息时,在页面最下方有“Linked Data”栏目,可以点击看到此文献的关联数据”。
此次OCLC的步子迈得很大──用OCLC自己的话说,“2012年6月,OCLC戏剧性地增加了其暴露的关联数据资源”(见Linked data at OCLC)。之前以关联数据发布的VIAF和FAST,内容都不是OCLC的,前者主要来自各国国家馆,后者基于LCSH。OCLC自有的DDC只在dewey.info发布了千分表(参见:关联数据:官方版与山寨版(DDC和LCSH),2009年8月21日) ,这次的DDC是全表,而WorldCat的书目数据量在世界图书馆界也是首屈一指的。
是看到已经发布的关联数据得到了大量利用(英国国家书目作为关联数据发布,每月处理2百万会话),如不尽早发布会被边缘化?难道真如Edmund Chamberlain所说,“如果我们不能学会分享,没人再会跟我们玩了”?(参见:图书馆从传统数据观走向关联数据及语义网:五周年,2012年5月16日)

按提示在worldcat.org细览页底部看到了不起眼的Linked Data,点击看到数据主要采用schema:,少量rdf:以及首次看到的library:。主题部分在schema:about中,rdf:type大多用skos:Concept。用到的URI除OCLC控制号http://www.worldcat.org/oclc/…,还有主题部分的OCLC的FAST号http://id.worldcat.org/fast/…和LCSH号http://id.loc.gov/authorities/subjects/…。

点击Linked Data标题下的More info about Linked Data,就到了OCLC新设的页面:Linked data at OCLC(http://www.oclc.org/data.html),原来的同名页面在开发者网络下(http://www.oclc.org/developer/linked-dat),有一些细节内容。
据介绍,WorldCat.org书目元数据以关联数据发布,采用Schema.org标记及其library扩展。以OCLC自有的书刊文献为主,未包括来自第三方的期刊论文。和VIAF一样,采用ODC(Open Data Commons)许可,允许教学与研究使用,其他目的使用则需遵循WorldCat使用政策──现称“社区规范”(Community Norms from WorldCat Rights and Responsibilities)。
OCLC研究部的原型已开发数月,目前为实验产品。采用Schema.org词汇作为建模基础,目的在于能够让搜索引擎和其他系统消费。──W3C拼不过搜索引擎提出的标准
这是个创新实验项目,未来会因来自图书馆及Web界的反馈而变化。

OCLC在2012/6/19新设立了关联数据讨论组(Linked Data Discussion Group),可以注册参与讨论,也可以RSS订阅。致欢迎词的是OCLC技术布道者Richard Wallis──曾经在英国的Talis担任同样的职务,近年致力于语义网与关联数据技术,今年4月加盟OCLC。(Richard Wallis joins OCLC staff as Technology Evangelist

[update] OCLC News Release: OCLC adds Linked Data to WorldCat.org
DUBLIN, Ohio, USA, 20 June 2012
Richard Wallis和OCLC的软件架构师Jeff Young都对采用schema.org做了说明。新闻稿中出现的另一位是Eric Miller,最近被LC选择设计取代MARC的元数据标准,据称他也正在关联数据策略方面帮助OCLC。

[update 2012-6-22] hangingtogether.org
Two Huge Linked Data Announcements (June 20th, 2012 by Roy)
19日宣布DDC23版全部在网上发布为关联数据(DDC 23 released as linked data at dewey.info),20日宣布全部Worldcat.org加上schema.org及其图书馆扩展。文后附注:此实验意在接受反馈及获取利用结果,期待此模型有所变化,故目前不提供批量下载。

[update 2012-6-25] Data Liberate Blog: OCLC WorldCat Linked Data Release – Significant In Many Ways / By Richard Wallis on June 21, 2012
Richard Wallis称他加盟OCLC的理由之一就是此事,并总结了七方面的重要性。

瑞典国家图书馆终止加入WorldCat谈判

今天看到瑞典国家图书馆终止了就加入WorldCat与OCLC进行的长达5年的谈判。绝对会是一个具有深远影响的重大新闻!
进行中的谈判主要针对两个问题,一是上载瑞典联合目录Libris数据库到WorldCat,二是许可Libris复制/拥有来自WorldCat的书目记录。听上去应该是个对等的谈判,不过谈判最终竟然破裂,主要原因是Libris是一个开放的数据库,对其书目记录后续如何使用不加限制,而未来如果Libris记录成为WorldCat数据,按OCLC政策不能作他用,必然引发冲突。消息中特别提到这会导致瑞典国家图书馆不能向Europeana和European Library提交数据,如果它成为WorldCat一部分的话。

在2008年末时,OCLC提出新的WorldCat记录使用政策,曾经引发反对风浪,以至半年后不得不撤回修改。到2010年4月才重新发出修改草案,半年后生效。没有仔细看过这个文本,以为生效就风平浪静了,看来还是暗流涌动的。OCLC还是一样的霸王。

进入21世纪,WorldCat的国际化进程加速,多个国家的国家图书馆(包括中国国家图书馆)及大型联合目录的数据以批上载的方式进入WorldCat,以至英语记录的数量已不到一半。包括瑞典国家图书馆本身,也在2007年批上载了2百万条记录。曾经听说CALIS数据也要加入WorldCat [update 2011-12-23: 已上传首批50万条]。此次瑞典国家图书馆终止与OCLC谈判,会不会成为WorldCat快速上升进程中的一个转折点?

Via Library Technology Guides: No deal with OCLC

瑞典国家图书馆新闻:
National Library of Sweden: No deal with OCLC (2011-12-21)

《图书馆杂志》评论:
Library Journal: National Library of Sweden: “No Deal with OCLC” on WorldCat Participation / By David Rapp Dec 21, 2011

关于各国国家图书馆与OCLC合作:
National Library participation in the OCLC global cooperative

关于WorldCat记录使用政策:
WorldCat Record Use Policy

[update 2011-12-25] 12月23日,OCLC合作博客上发布了OCLC研究图书馆合作副总裁Jim Michalko的回应:
The National Library of Sweden and WorldCat
提到6月在开放知识基金博客上关于OCLC政策的说明:
OCLC, WorldCat Rights and Responsibilities, and Open Data Licensing

[update 2014-2-19] 签署采用CC0协议,事隔两年、谈判重启

The National Library of Sweden signs agreement on CC0 license with OCLC (14 februari, 2014)

瑞典国家图书馆经过与OCLC的长期协商,宣布与OCLC签署协议,以创作共用(CC0)使用瑞典联合目录Libris中衍生自WorldCat的数据。美国国会图书馆和三个欧洲国家图书馆(不列颠图书馆、法国国家图书馆和德国国家图书馆)已达成类似协议。

……对于Libris图书馆编目,以及希望重用和/或建设基于Libris数据服务的各方,CC0许可提供更完整的支持。

此外,瑞典国家图书馆及Libris图书馆也重新开始协商(成为)OCLC/WorldCat成员。……

WorldCat身份档网络:WorldCat及其身份档的混搭

OCLC近日推出WorldCat身份档网络:WorldCat Identities Network,由J.D. Shipengrover负责开发。

WorldCat身份档(WorldCat Identities)中包括个人、对象(如泰坦尼克号船)、虚拟人物(如哈利·波特)、机构。身份档网络采用WorldCat身份档API,为被检索的身份提供多至10个相关身份,并以可视网络的方式显示。每个显示的身份都可以点击,再关联与其相关的10个身份。

在身份关联图下部,列有10个关联身份的:

1、身份档网络的页面链接
2、相关作品5部(由WorldCat检索API提供)及更多链接
3、WorldCat身份档的页面链接
4、出现频率(Occurance)

与被检索身份相关的链接在网页最下面,包括:
1、该身份所著作品的WorldCat链接(作者)
2、研究该身份作品的WorldCat链接(主题)
3、该身份WorldCat身份档的页面链接

据Lorcan Dempsey说,最初打算把身份档网络的图形显示放在身份档页面,因未能实现而决定作为一个独立的应用。Dempsey指出结果页完全未经编辑,数据采用API分别从WorldCat身份档和WorldCat中抽出,就是一个混搭(mashup),只是这个词现在不常听到了。
Dempsey指出,如果能显示上述身份间关系的类型[如作者、编者、研究者等]则更佳,只是书目数据不一致且不全。[RDA已经重拾并强化曾被忽略的“关系”]

开发页面给出了一个挑战:发现从Jane Austen到Aldous Huxley的六度分离关系,答案是Jane Austen──George Eliot──Henry James──Joseph Conrad──D.H. Lawrence──Aldous Huxley。依这个路径使用身份档网络发现,一般只同时显示二个身份关联图(即同时显示21个)。除非多个身份间有直接关系,如Austen, Jane与Chapman, R.W.与Southam, B.C.……由于Chapman是一个编辑,与较多作者关联,因而会产生较复杂的关系图。

另外,可视化或分面等数据挖掘后的显示,最容易显露数据中的错误。再以Jane Austen为例,关联的Champman, R.W. 1881-1960与Champman, R.W.显然是同一人。WorldCat身份档是从WorldCat中经程序挖掘而成的,显然规范做得还不到位。(直接查Jane Austen也可以看出这一点)
———-相关链接的分割线———
Lorcan Dempsey’s Weblog: Worldcat Identities Network: a ‘mashup’ (July 30, 2011)

新闻页面:OCLC News: New Prototype: WorldCat Identities Network (28 July 2011)

研究部页面:OCLC Research: WorldCat Identities Network (22 July 2011)

开发页面:OCLC Developer Network: WorldCat Identities Network

相关API
WorldCat Identities API landing page (technical information)

WorldCat Search API landing page (technical information)