OCLC以关联数据开放1.94亿书目作品

OCLC技术布道者Richard Wallis日前迫不及待地在自己的博客上预告,OCLC将发布1.94亿关联数据“书目作品”描述,以“WorldCat关联数据探索”(WorldCat Linked Data Explorer)界面提供。据称这是WorldCat关联数据的首次产品发布(This is the first production release of WorldCat infrastructure delivering linked data.)——我理解,之前worldcat.org只是在原细览页面下方加了个关联数据栏目(参见“WorldCat也关联数据了”,2012年6月21日),这次是经整理的WorldCat“作品”完全以关联数据方式发布。
这里的“作品”可以认为是FRBR概念:“作品是资源的高级描述,包含如作者、名称[题名]、描述、主题等作品所有版本共同的信息。描述格式基于Schema.org词汇的创作作品类所定义的某些属性。在WorldCat作品描述中,也包括到WorldCat中已经共享的、有OCLC号的个别版本的[关联数据]链接”。而worldcat.org中的则是FRBR载体表现记录。
Wallis提供的一个作品实例是:Zen and the art of motorcycle maintenance : an inquiry into values (有墙,https同样无法访问)
“WorldCat关联数据探索”界面并非给最终用户使用,除了给人看的HTML格式外,提供Turtle、N-Triple、JSON-LD和RDF/XML四种关联数据格式
所提供的实例使用如下schema.org词汇
类型(type):http://schema.org/CreativeWork 和 http://schema.org/Book(CreativeWork的下位类型)
关于(about,主题):http://schema.org/about
创作者(creator):http://schema.org/creator
描述(description,简介):http://schema.org/description
名称(name,题名):http://schema.org/name
作品实例(workExample,载体表现):http://schema.org/workExample(尚未批准的schema书目扩展?上述链接无效)

目前提供的是预览,未来数周内功能将有较大改进。现在“作品实例”已经采用了真实的标识符(如http://www.worldcat.org/oclc/191931910),可以链接到worldcat.org。而“关于”(主题)和“创作者”的标识符还是临时的(hash-URI,由作品URI和名称组成,如http://experiment.worldcat.org/entity/work/data/12477503#Topic/fathers_and_sons或http://experiment.worldcat.org/entity/work/data/12477503#Person/pirsig_robert),点击后出现placeholder reference提示框。据称未来数周内,人名将链接到虚拟国际规范档(VIAF,如http://viaf.org/viaf/78757182)。[未来主题将链接到id.loc.gov,或是FAST?]
目前发布的作品URI是永久的,采用开放数据许可(ODC-BY)。现在得到作品URI只有一个方法,就是通过xISBN、xOCLCNum服务返回的作品ID,组成作品URI:http://worldcat.org/entity/work/id/作品ID。数周内,worldcat.org已经发布的关联数据部分会嵌入到“作品”的链接。比如OCLC号为5347480的书目记录(载体表现):http://www.worldcat.org/oclc/5347480,会有:
schema:exampleOfWork http://worldcat.org/entity/work/id/12477503
“从那时起,OCLC以及其他机构将开始使用WorldCat作品URI及其描述,作为核心稳定的基础,建设图书馆领域内的实体间关系网。这个数据网,在未来岁月中,将激励数据共享,以及消费这些数据的应用与界面设计”。

via Data Liberate: OCLC Preview 194 Million Open Bibliographic Work Descriptions / Richard Wallis (2014-2-25)

附记:WorldCat统计页面只有其Knowledge Base数据,没有完整的WorldCat数据。按OCLC年度报告(Annual Report 2011/2012),截止2012.6.30的WorldCat统计:
作品数 Works 176,302,014(1.763亿)
记录数 Manifestations (records) 273,703,842(2.737亿)
馆藏数 Total holdings 1,854,243,605(18.54亿)

[update 2014-5-21] 2014.4.28 正式发布
OCLC News Release: OCLC releases WorldCat Works as linked data (DUBLIN, Ohio, 28 April 2014)
Data Liberate: WorldCat Works – 197 Million Nuggets of Linked Data / Richard Wallis (April 28, 2014)
Hangingtogether.Org: The Most Important Thing You Haven’t Heard Of / Roy Tennant (April 29, 2014)

解惑Schema书目扩展

OCLC在2012年中发布了WorldCat关联数据,采用搜索引擎巨头的标准Schema.org作元数据标记,对Schema.org没有的词汇(vocabulary)做了实验性的“图书馆扩展”。后来,“图书馆扩展”(“library” extension)变成了“书目扩展”(Bib Extend),一个W3C小组(Schema Bib Extend Community Group,简称SchemaBibEx):“小组的任务是讨论与准备扩展Schema.org规范的建议,以改进书目信息标记与共享。小组寻求对向W3C WebSchemas小组建议的共享与支持,本身不产生技术规范”。
看小组网站,创建人即WorldCat关联数据项目的重要人物Richard Wallis,对OCLC发起这个小组的意图有所猜测。发起会议为2012年9月,原定为期一年却仍结束无期;小组有持续的会议,却没看到提出什么建议。还在其他场合看到一些讨论甚至争论——总之,对SchemaBibEx有太多不明之处。
这几天仔细看《信息标准季刊》2013年冬辑,Wallis的文章基本可以解惑。从下内容摘自该文不同部分,编号及小标题自拟【点评】:

Richard Wallis: Schema Bib Extend. ISQ:Information Standards Quarterly, Winter 2013, Vol.25, issue 4:30-32

一、任务
一个W3C社区小组,专注在书目领域建立共识,提交建议给WebSchemas小组,扩展Schema.org词表,强化其描述书目资源的能力。

二、成立缘由
依照Schema.org背后那些(机构)的指引,在W3C的帮助下成立开放小组。W3C相信,来自兴趣方的小组建议会比个人带来更多份量【应该说是多方比OCLC一方更有份量】。同时,这样一个小组会带来影响建议形成过程的有信息量的讨论和使用案例。

三、小组成员
成员超过80人,代表对书目领域感兴趣的个人或机构。所代表的机构包括数个国家图书馆、图书馆系统厂商、出版者、W3C、大学、合作机构和联盟。

四、已提出的建议
小组定期召开电话会议,通过社区wiki,已形成并提交数个有关馆藏引文有声书专题的建议给WebSchemas小组。

五、思路变化
最初建议花大量精力识别很多Schema.org中没有的书目词汇术语【对照法】。
(现在)通过把Schema.org词表用于在书目领域中描述资源及其关系,弄清并探索问题。在此过程中,检查书目资源的样例网页,看什么Schema.org标记合适。这一方法的结果,一是认识到Schema.org有多么适合描述我们的资源,二是识别了特定的覆盖缺口——比如没有有声书类。【查遗补缺法:用Schema.org标记书目记录,从而了解缺少什么】
有些案例,最初推测需要新类/属性,后来清楚只要有建议、文档或样例就够了;另外一些案例,所需的只是建议对Schema.org文档中描述做出微调。【换言之,以前对Schema了解不够】
以“馆藏”为例,最初想法可能导致建议提出图书馆专用的类与属性。但是使用Schema.org的Offer类——对其文档描述做某些调节以考虑到offers除了出售外还可能是出借或共享——就足以满足图书馆的使用案例——可获取。随后剩下的就是某些细致的具体工作,用新属性描述图书馆特定的事比如架标、索取号等。【也就是说,尽可能用已有类及属性,可做些微调,或在现有类下增加某些属性】

六、未来预计
尽管有很多事情要做,在小组第二年结束前,可能大部分问题都被处理了。

七、采用
除了OCLC的WorldCat,开源图书馆系统如Evergreen和Koha已在其用户界面实施代码以爆光Schema.org。

八、对Schema.org的信心
Schema书目扩展小组及其建议被采用,会导致书目资源在数据网中更一致、更经常地表达,因之更可发现。如果小组达成其目标,Schema.org将更适合书目资源的通用表达。【基本态度:不管其他人怎么想、其他机构怎么做,反正OCLC就直接用Schema.org了】

参见:
WorldCat也关联数据了(2012年6月21日)
Schema.org的图书馆扩展(2012年6月22日)

FirstSearch将变身为发现服务

OCLC日前宣布将整合FirstSearchWorldCat Local,推出WorldCat发现服务(WorldCat Discovery Services)
FirstSearch是OCLC早先的电子资源检索平台,后来推出发现系统WorldCat Local,估计在四大发现系统中销量垫底。此举是借FirstSearch用户扩大用户面么?

据新闻稿,OCLC将于2014年3月向FirstSearch现有1.8万图书馆订户推出WorldCat发现服务(as part of existing subscriptions),在一年转换期后彻底取代FirstSearch;而现有WorldCat Local用户也将从4月份开始试用,在一年半时间内转换到WorldCat发现服务。
FirstSearch订户的新功能包括访问中心索引自适应移动设备的新用户界面管理数字馆藏的访问;WorldCat编目成员馆还能直接链接到订购的全文资源,有内置的资源A-Z List,在检索结果中首先显示本馆资源。
可定制的收费服务将于7月开始提供,包括:实时可获得性(馆藏状态)、分组显示可获得资源(地区或联盟资源)、管理教学参考书或阅读清单、定制流量与利用报告。——用户数重要但不是关键,效益才是。
OCLC网络化图书馆服务部执行主任Andrew K. Pace称,新服务的开发与完善基于一个30名成员的咨询组的反馈,在过去18个月中世界各地650多家图书馆参与了beta测试

今天看到WorldCat LocalFirstSearch的网页上,都嵌入了即将推出新服务的内容。
在WorldCat发现服务网页上,有一个近3分钟的YouTube视频,向FirstSearch用户作介绍,大部分都是文字,只有两个截屏可一窥概貌:名为“新用户体验”的主界面截屏,上部为单检索框、左栏为分面限定(联想到Pace就是当年在北卡大学图书馆推出第一家基于分面OPAC的主事者);名为“扩展电子内容”的细览页截屏,左栏为相邻内容,主要部分中有“联机访问”按钮。从界面看并无太大新意。当然,发现服务最重要的,应该是元数据的数量、质量、检索结果的排序等等。

新闻稿称这是OCLC的第二个云服务。第一个是2011年发布的WorldShare管理服务(简称为WMS的集成管理系统),目前有180多家图书馆采用、100多家图书馆实施中。

OCLC News: OCLC introduces WorldCat Discovery Services (22 January 2014)
WorldCat Discovery Services: Coming March 2014

———八卦一下OCLC总裁———

从新闻稿中发现OCLC在2013年中再次任命了新总裁:Skip Prichard,2013年7月1日上任,接替一年前曾退休过一次的Jay Jordan,成为第5位总裁。Skip Prichard有书业背景,之前曾任Ingram(2008-2012)和ProQuest(2005-2007)的CEO,以至他在自己网站(博客)上介绍自己就是CEO。2011年曾经“OCLC和Ingram联手推出访问电子书的新选项”(2011年4月11日),或许那就是开始。

在Skip Prichard个人网站上醒目位置有爱因斯坦语录,很强悍:
你绝对必须知道的唯一一件事,就是图书馆的位置
“The only thing you absolutely have to know, is the location of the library.” — Albert Einstein

OCLC News: Skip Prichard named OCLC President and CEO (May 16, 2013)

OCLC News: Jay Jordan will continue as President and CEO of OCLC (20 June 2012)
OCLC News: Jack B. Blount named OCLC President and CEO (8 June 2012)
Jack B. Blount是IT背景(与图书馆相关的是2002-2005任Dynix的CEO)。宣布任命不到半个月就撤消了,在当时很是引起了一番口水。参见:
Gary Price: Jack Blount Will NOT be Joining OCLC as New Pres/CEO, Jay Jordan Will Postpone Retirement (June 20, 2012)
Bibliographic Wilderness: Signs of a weirdly run company: Really, OCLC? (June 21, 2012)