OCLC以关联数据开放1.94亿书目作品

OCLC技术布道者Richard Wallis日前迫不及待地在自己的博客上预告,OCLC将发布1.94亿关联数据“书目作品”描述,以“WorldCat关联数据探索”(WorldCat Linked Data Explorer)界面提供。据称这是WorldCat关联数据的首次产品发布(This is the first production release of WorldCat infrastructure delivering linked data.)——我理解,之前worldcat.org只是在原细览页面下方加了个关联数据栏目(参见“WorldCat也关联数据了”,2012年6月21日),这次是经整理的WorldCat“作品”完全以关联数据方式发布。
这里的“作品”可以认为是FRBR概念:“作品是资源的高级描述,包含如作者、名称[题名]、描述、主题等作品所有版本共同的信息。描述格式基于Schema.org词汇的创作作品类所定义的某些属性。在WorldCat作品描述中,也包括到WorldCat中已经共享的、有OCLC号的个别版本的[关联数据]链接”。而worldcat.org中的则是FRBR载体表现记录。
Wallis提供的一个作品实例是:Zen and the art of motorcycle maintenance : an inquiry into values (有墙,https同样无法访问)
“WorldCat关联数据探索”界面并非给最终用户使用,除了给人看的HTML格式外,提供Turtle、N-Triple、JSON-LD和RDF/XML四种关联数据格式
所提供的实例使用如下schema.org词汇
类型(type):http://schema.org/CreativeWork 和 http://schema.org/Book(CreativeWork的下位类型)
关于(about,主题):http://schema.org/about
创作者(creator):http://schema.org/creator
描述(description,简介):http://schema.org/description
名称(name,题名):http://schema.org/name
作品实例(workExample,载体表现):http://schema.org/workExample(尚未批准的schema书目扩展?上述链接无效)

目前提供的是预览,未来数周内功能将有较大改进。现在“作品实例”已经采用了真实的标识符(如http://www.worldcat.org/oclc/191931910),可以链接到worldcat.org。而“关于”(主题)和“创作者”的标识符还是临时的(hash-URI,由作品URI和名称组成,如http://experiment.worldcat.org/entity/work/data/12477503#Topic/fathers_and_sons或http://experiment.worldcat.org/entity/work/data/12477503#Person/pirsig_robert),点击后出现placeholder reference提示框。据称未来数周内,人名将链接到虚拟国际规范档(VIAF,如http://viaf.org/viaf/78757182)。[未来主题将链接到id.loc.gov,或是FAST?]
目前发布的作品URI是永久的,采用开放数据许可(ODC-BY)。现在得到作品URI只有一个方法,就是通过xISBN、xOCLCNum服务返回的作品ID,组成作品URI:http://worldcat.org/entity/work/id/作品ID。数周内,worldcat.org已经发布的关联数据部分会嵌入到“作品”的链接。比如OCLC号为5347480的书目记录(载体表现):http://www.worldcat.org/oclc/5347480,会有:
schema:exampleOfWork http://worldcat.org/entity/work/id/12477503
“从那时起,OCLC以及其他机构将开始使用WorldCat作品URI及其描述,作为核心稳定的基础,建设图书馆领域内的实体间关系网。这个数据网,在未来岁月中,将激励数据共享,以及消费这些数据的应用与界面设计”。

via Data Liberate: OCLC Preview 194 Million Open Bibliographic Work Descriptions / Richard Wallis (2014-2-25)

附记:WorldCat统计页面只有其Knowledge Base数据,没有完整的WorldCat数据。按OCLC年度报告(Annual Report 2011/2012),截止2012.6.30的WorldCat统计:
作品数 Works 176,302,014(1.763亿)
记录数 Manifestations (records) 273,703,842(2.737亿)
馆藏数 Total holdings 1,854,243,605(18.54亿)

[update 2014-5-21] 2014.4.28 正式发布
OCLC News Release: OCLC releases WorldCat Works as linked data (DUBLIN, Ohio, 28 April 2014)
Data Liberate: WorldCat Works – 197 Million Nuggets of Linked Data / Richard Wallis (April 28, 2014)
Hangingtogether.Org: The Most Important Thing You Haven’t Heard Of / Roy Tennant (April 29, 2014)

FRBRoo的连续出版物扩展——PRESSoo

PRESSoo由ISSN国际中心和ISSN评审组的代表,以及法国国家图书馆代表组成的工作组开发,目标是应用FRBR家族模型到连续出版物和连续性资源。
ISSN网站上的PRESSoo页面:PRESSoo
2013年3月发布了0.1版征求意见:
PRESSOO, Extension of CIDOC CRM and FRBROO for the modelling of bibliographic information pertaining to periodicals, Version 0.1. March 2013 / Editor: Patrick Le Boeuf (BnF)(48页PDF文件)
导论起始的定义:“PRESSoo,一个意在抓取与表达关于连续性资源书目信息的基础语义的正式本体,特别针对期刊(杂志、报纸等)。PRESSoo是FRBRoo的扩展,而FRBROO本身是CIDOC CRM的扩展。”

连续出版物的主要FRBRoo类是连续作品 F18。导论中包括13幅FRBRoo、PRESSoo及CIDOC CRM的类与属性间关系的图示,有助于了解连续出版物中的各种关系。文档最后是ISSN手册中的数据元素到PRESSoo的对照清单(含PRESSoo、FRBRoo及CIDOC CRM的类与属性,PRESSoo继承了后两者的类与属性)。

PRESSoo定义了12个类(Z1-Z12),43个属性(Y1-Y43)。属性比较好理解,基本上是期刊的各种演变关系。类可分为两部分,一是各种事件:
– 作品概念 F27:连续出版物转换 Z1、分离 Z3
– 活动 E7:吸收 Z2、发行规则[刊期]改变 Z5、元数据管理 Z8
– 出版事件 F30:临时代替 Z4、开始出版 Z6、结束出版 Z7
另外一部分不知道怎么归类
– 存储单元 Z9(如装订本)
– 编号模式 Z10(如数字、月份)
– URL Z11
– 发行规则[刊期] Z12

参见:FRBRoo读后(2014年2月9日)

法国人眼中的FRBR、RDA与BIBFRAME

明天寒假结束,争取看完《信息标准季刊》2013年冬辑。下文是该期中最长的一篇,看完全文的强烈印象是法国(或者他所称的欧洲)对FRBR的全面坚持,对RDA的无可奈何,以及对BIBFRAME的观望与困惑。

Interview with Gildas Illien, Director, Bibliographic and Digital Information Department, Bibliotheque nationale de France (BnF). ISQ:Information Standards Quarterly, Winter 2013, Vol.25 issue 4:22-29
客座内容编辑Ted Fons访谈法国国家图书馆(BnF)书目与数字信息部主任吉尔达·艾里恩,艾里恩谈他本人以及法国乃至欧洲对4个元数据相关问题的看法:
1、概述对需要书目数据交换新框架的观点?为什么现在需要?作为元数据专家,需要解决的最大问题?
2、BnF在转换书目数据表达方式上做了些什么?
3、概述欧洲图书馆过去五年关注什么?在元数据管理方面的主要致力的是什么?
4、未来两年新元数据项目的重心?当前努力中是否有鸿沟可在近期填补?

以下译自主要谈及RDA和BIBFRAME的第3个问题,对FRBR的表述则几乎贯穿全部4个问题。

【FRBR作为起点】当前北美及更广的英美编目界关于书目数据交换模型的讨论,在欧洲产生兴奋与困惑的混合体。在许多欧洲国家图书馆与书目机构看来,在IFLA框架下,发明与整合FRBR模型(及其后对规范记录与主题的扩展FRAD和FRSAD),是我们现在所称的书目革命的概念起点。欧洲有强烈的看法,该模型的视点仍有效,应当是书目改变的主要驱动力,因为FRBR正被整合进IFLA国际编目原则,适应对数字时代的创新与调节。欧洲图书馆在FRBR理论与数据建模中投入良多且仍在投入,比如当前在FRBRoo和PRESSoo及其他衍生自FRBR模型的发展。

【对RDA感到兴奋】开发RDA编目规则及其在数个主要图书馆开始实际实施,被视为实施FRBR模型、使其在现实生活中出现的非常重要且正面的一步。多个欧洲图书馆,主要是有AACR2和MARC21传统的,已开始翻译与实施,或计划未来几年实施。其他来自不同书目传统的——大多数是ISBD和UNIMARC——仍然看到RDA中的某些局限,不热衷于原样采用,主要因为它不适合某些实践,仍需要国际化改进,或完全与FRBR模型兼容。长远来看,考虑改变所花费用,一个概念是,如果他们应当投资如此根本的改变,就应当是最佳配合FRBR希望的雄心勃勃的实施场景。这些机构已投入很多努力理解RDA的准则,提出他们需要的调整。欧洲RDA兴趣小组(EURIG)两年前组成,为欧洲书目机构提供一个论坛,协作讨论说明这些问题,提出对RDA规则的改编。到今天为止,这个过程及与RDA编纂联合指导委员会的后续互动已被判定为建设性的,所有参与方都发出声音。尽管整个过程可能太慢,但我们知道,书目领域的国际标准化是最复杂的类型之一,这样的事务不可能一天达成一致。总而言之,从FRBR模型移到RDA规则,以及其遵循国际合作原则的实际实施的动态性,在欧洲被当作十分令人鼓舞的过程。很多欧洲图书馆似乎准备作出妥协以达成某些一致,如此则在方便国际互操作及未来元数据交换的方向上,机构的路标可以与之靠拢。这是令人兴奋的部分。

【对BIBFRAME表示困惑】更令人困惑的部分是最近北美的数据交换模型方面的开发。若干欧洲图书馆觉察到一种矛盾,在设计FRBR和RDA上是随时间变化协作,而在数据基础结构问题上目前的表达方式则不同。FRBR和RDA都是与技术实施不相关的,而整体感觉——也许更多是对BIBFRAME项目实际试图达成什么的一种误解——重要的决定与标准在海外定义,没有与欧洲图书馆充分讨论,与导向FRBR模型定义的最初愿景与目标也不兼容。在目前阶段,我想说这种状况是困惑之源,尤其考虑其背景,即图书馆感到压力,要通过元数据转换证明其有形成果,开发适合关联开放数据的法律与技术需求的新服务。某些图书馆开始开放其数据,但是不关联;另一些开始关联其数据,但是不开放。无人确实了解,是否数据以RDF曝光就被重用,或找到合适的计量法加以评估。FRBR化实验已在目录中不同程度、通过不同渠道实施(ILS厂商主导或由特定项目内部运行)。【意指FRBR化已有小成,竟然被BF放弃?】

P.S. 文中另有两处提到法国国家图书馆对RDA的态度与应用:
参与RDA相关工作】BnF在标准制订上投入很多努力,其最好的元数据专家仍然很多参与ISBD、RDA和FRBR工作。
BnF的开放关联数据部分采用RDA词汇】data.bnf.fr以RDF形式从异构来源聚合与曝光联机数据,可方便搜索引擎索引,深度链接到其他来源,无论是BnF内部(其MARC和EAD主目录、数字图书馆Gallica等),还是外部(法国大学图书馆联合目录SUDOC、法国联合目录CCFR、WorldCat、VIAF、维基百科等)。整个过程需要转换MARC或EAD格式元数据到信息中心(information hub),基于RDF建模技术及标准词表(DC、SKOS、RDA和FOAF)。