WorldCat也关联数据了

一早在书社会看到远洋师说杜威分类法(DDC)23版的23,000多个分类号和类名昨天发布为关联数据,下班后又在微博上看到OCLC北京代表处说worldcat.org引入关联数据:“在查看一份文献的详细书目信息时,在页面最下方有“Linked Data”栏目,可以点击看到此文献的关联数据”。
此次OCLC的步子迈得很大──用OCLC自己的话说,“2012年6月,OCLC戏剧性地增加了其暴露的关联数据资源”(见Linked data at OCLC)。之前以关联数据发布的VIAF和FAST,内容都不是OCLC的,前者主要来自各国国家馆,后者基于LCSH。OCLC自有的DDC只在dewey.info发布了千分表(参见:关联数据:官方版与山寨版(DDC和LCSH),2009年8月21日) ,这次的DDC是全表,而WorldCat的书目数据量在世界图书馆界也是首屈一指的。
是看到已经发布的关联数据得到了大量利用(英国国家书目作为关联数据发布,每月处理2百万会话),如不尽早发布会被边缘化?难道真如Edmund Chamberlain所说,“如果我们不能学会分享,没人再会跟我们玩了”?(参见:图书馆从传统数据观走向关联数据及语义网:五周年,2012年5月16日)

按提示在worldcat.org细览页底部看到了不起眼的Linked Data,点击看到数据主要采用schema:,少量rdf:以及首次看到的library:。主题部分在schema:about中,rdf:type大多用skos:Concept。用到的URI除OCLC控制号http://www.worldcat.org/oclc/…,还有主题部分的OCLC的FAST号http://id.worldcat.org/fast/…和LCSH号http://id.loc.gov/authorities/subjects/…。

点击Linked Data标题下的More info about Linked Data,就到了OCLC新设的页面:Linked data at OCLC(http://www.oclc.org/data.html),原来的同名页面在开发者网络下(http://www.oclc.org/developer/linked-dat),有一些细节内容。
据介绍,WorldCat.org书目元数据以关联数据发布,采用Schema.org标记及其library扩展。以OCLC自有的书刊文献为主,未包括来自第三方的期刊论文。和VIAF一样,采用ODC(Open Data Commons)许可,允许教学与研究使用,其他目的使用则需遵循WorldCat使用政策──现称“社区规范”(Community Norms from WorldCat Rights and Responsibilities)。
OCLC研究部的原型已开发数月,目前为实验产品。采用Schema.org词汇作为建模基础,目的在于能够让搜索引擎和其他系统消费。──W3C拼不过搜索引擎提出的标准
这是个创新实验项目,未来会因来自图书馆及Web界的反馈而变化。

OCLC在2012/6/19新设立了关联数据讨论组(Linked Data Discussion Group),可以注册参与讨论,也可以RSS订阅。致欢迎词的是OCLC技术布道者Richard Wallis──曾经在英国的Talis担任同样的职务,近年致力于语义网与关联数据技术,今年4月加盟OCLC。(Richard Wallis joins OCLC staff as Technology Evangelist

[update] OCLC News Release: OCLC adds Linked Data to WorldCat.org
DUBLIN, Ohio, USA, 20 June 2012
Richard Wallis和OCLC的软件架构师Jeff Young都对采用schema.org做了说明。新闻稿中出现的另一位是Eric Miller,最近被LC选择设计取代MARC的元数据标准,据称他也正在关联数据策略方面帮助OCLC。

[update 2012-6-22] hangingtogether.org
Two Huge Linked Data Announcements (June 20th, 2012 by Roy)
19日宣布DDC23版全部在网上发布为关联数据(DDC 23 released as linked data at dewey.info),20日宣布全部Worldcat.org加上schema.org及其图书馆扩展。文后附注:此实验意在接受反馈及获取利用结果,期待此模型有所变化,故目前不提供批量下载。

[update 2012-6-25] Data Liberate Blog: OCLC WorldCat Linked Data Release – Significant In Many Ways / By Richard Wallis on June 21, 2012
Richard Wallis称他加盟OCLC的理由之一就是此事,并总结了七方面的重要性。

IFLA命名空间应用实例──西班牙国家图书馆书目

前几天IFLA的FR系列元素集与取值词表出版,Karen Coyle马上在自己的博客上介绍了西班牙国家图书馆(BNE)如何使用FRBR、FRAD和ISBD的RDF实现关联数据。Jada已在书社会中详细介绍了Karen的博文。

西班牙国家图书馆关联数据发布于今年2月,当时远洋师就认为是基于FR的,这或许是最早以IFLA命名空间发布的关联数据。当时其所用的ISBD元素集已出版。

据Karen所述,BNE在作品和内容表达用FR系列,载体表现用ISBD。这种区分很清晰,也很有意思。是不是IFLA就不再需要那个设想中的“国际编目条例”了?

Karen说BNE将作品和内容表达作为规范实体来使用,而把载体表现作为书目实体,她以前没有认清。这确实并非BNE首创。因为UNIMARC的FRBR改造,就是把作品和内容表达纳入规范记录,载体表现纳入书目记录,另外单件纳入馆藏记录。

Karen文中关注的都是规范记录范畴的内容,并且主要是实体及关系,较少涉及属性部分。她似乎并未提到描述(description)也就是ISBD部分。FR层面的规范记录有助于数据之间的关联,那么,描述部分未来的作用是什么?RDA中相当大的篇幅就纠结在描述中──面对千奇百怪的文献,不需要弄清这一件和那一件之间的异同吗?

Karen称BNE的做法意味着可以不经RDA转到关联数据,似乎有点抬扛的意思。之前已经有那么多图书馆关联数据的应用,并没有哪个用了RDA。实际上,不会有人认为只有通过RDA才能实现关联数据吧?

参见:
Coyle’s InFormation: FRBR, FRAD, ISBD in LD by BNE(有墙)

Jada的书社会日志:西班牙国家图书馆基于FR将书目数据发布为关联数据 (2012-5-31)

西班牙国家图书馆关联数据发布 (2012年2月14日)

UNIMARC的FRBR改造 (2011年10月7日)

FRBR系列元素集与取值词表出版 (2012年5月27日)

FRBR系列元素集与取值词表出版

前两天,Jada在书社会日志中说到XC发布为关联数据还存在的问题,包括FRBR实体没有公开注册。今天看到书蠹精在新浪微博上的消息:“功能需求”系列(FRBR家族)的名称空间发布:http://t.cn/zOrxaPe。链过去看,网址是:http://iflastandards.info/ns/fr/

该页页面布局与Open Metadata Registery相似,页面上部还有OMR的Logo。实际上除首页网址为iflasatandards.info外,目前所有有效链接指向的都是metadataregistry.org。不过元素与取值的URI为http://iflasatandards.info(IFLA的名称空间)起始。

目前已注册的有四个元素集、三个取值词表。除FRBRer开放模型外,均为出版状态,表明已得到IFLA认可。

The FRBR Vocabularies

FRBR Element Sets
FRAD model Element list (147) Published
FRBRer model Element list (216) Published
FRBRer open model Element list (3) New-Under Review
FRSAD model Element list (19) Published

FRBR Vocabularies
FRAD User Tasks Concept list (4) Published
FRBRer User Tasks Concept list (4) Published
FRSAD User Tasks Concept list (4) Published

其中:
√ FRAD model共6个类、6个子类、134个属性、1个子属性。
类和子类为(可参见FRAD之图2规范数据的概念模型):
Bibliographic Entity(2个子类:Family、Corporate Body)
Name(4个子类:Name of a Person、Name of a Family、Name of a Corporate Body、Name of a Work)
Identifier
Controlled Access Point
Rules
Agency

√ FRBRer model共10个类,对应FRBR的3组10个实体;206个属性property。

√ FRBRer open model目前仅有3个元素:
属性complements(补编)及2个子属性complements (expression) (from expression)和complements (work) (from expression),2个子属性取自FRBRer model。

√ FRSAD model共有2个类:Thema、Nomen;19个属性。

√ 三个模型各4种用户任务……

———-几点困惑———-
1、从2010年或更早起,Gordon Dunsire即在Open Metadata Registery上代表IFLA做FR系列(及ISBD)的注册。不过之前自己只看到FRBR Entities for RDA,没有注意到这个FRBRer model实际上就是IFLA版的FRBR。查了一番,FRBRer即指FRBR实体关系。FR系列都是实体关系模型,为何只有FRBR后面加了个er,是为了区分面向对象的FRBRoo吗?
2、FRAD模型中,Bibliographic Entity只有2个子类Family和Corporate Body,没有Person。作为名称规范,也没有比如work,至少也该与Name的4个子类对应吧?
[update 2012-5-30: 其实FRAD说明了可以使用FRBR元素,远洋师在本篇的书社会版评论中指出不必再定义,而重新定义Corporate Body是因为FRAD修改了FRBR的定义。经查:
FRBR的团体定义(description)是:An organization or group of individuals and/or organizations acting as a unit.
FRAD的团体定义是:An organization or group of persons and/or organizations identified by a particular name acting as a unit.(comment中有修改说明)]
3、FRBRer模型中,类别没有Family(因为所依据的最新FRBR 2009版仍然没有)。在FRAD模型的附注中说明使用FRBR元素,但在FRBRer的附注中并未说明可以使用FRAD元素。
4、FRBRer开放模型,这个完全不明白其作用。

[update 2012-5-28] 雨师做的FRBR Explorer。直接从OMR取来数据吧,对我来讲就是可以方便地浏览四个元素集。

———-参见———-
Jada的书社会日志:为关联数据作好准备的图书馆软件(从MARC到RDA到Linked Data)——eXtensible Catalog (2012-05-24)

IFLA命名空间工作组:IFLA Namespaces Task Group
2009年成立,主席Gordon Dunsire,属于分类与标引部

[update]写的时候没有搜到消息来源,发完后在书社会上看到远洋师发的消息(IFLA FR family namespaces published)。
还查到自己前几天写的“图书馆从传统数据观走向关联数据及语义网:五周年”中,IFLA代表Pat Riva和Mirna Wille提到“ISBD和FRBR模型元素集命名域和取值词表已出版,并且由de-referencing服务提供利用”。当时对de-referencing提供服务的含义有所困惑,却没有想到核实其出版的细节。

IFLA新闻:ISBD namespaces published (8 February 2012)
FR命名空间出版的官方消息链接待补

———-题外话:RDA的注册———-
FRBR实体的RDA版(FRBR Entities for RDA),由Diane Hillman代表元数据管理协会为RDA注册,不过尚未得到JSC的认可(状态仍为New-Proposed)。
实际上已经注册的RDA元素集与取值词表大部分尚未出版,远远落后于RDA美国测试报告提出的2011年12月完成的要求。

参见:
RDA注册第一批词汇表出版 (2011年8月2日)
RDA注册词汇表:内容、媒介、载体类型出版 (2012年1月27日)
RDA可能的修改及时间表 (2011年6月22日)