OCLC以关联数据开放1.94亿书目作品

OCLC技术布道者Richard Wallis日前迫不及待地在自己的博客上预告,OCLC将发布1.94亿关联数据“书目作品”描述,以“WorldCat关联数据探索”(WorldCat Linked Data Explorer)界面提供。据称这是WorldCat关联数据的首次产品发布(This is the first production release of WorldCat infrastructure delivering linked data.)——我理解,之前worldcat.org只是在原细览页面下方加了个关联数据栏目(参见“WorldCat也关联数据了”,2012年6月21日),这次是经整理的WorldCat“作品”完全以关联数据方式发布。
这里的“作品”可以认为是FRBR概念:“作品是资源的高级描述,包含如作者、名称[题名]、描述、主题等作品所有版本共同的信息。描述格式基于Schema.org词汇的创作作品类所定义的某些属性。在WorldCat作品描述中,也包括到WorldCat中已经共享的、有OCLC号的个别版本的[关联数据]链接”。而worldcat.org中的则是FRBR载体表现记录。
Wallis提供的一个作品实例是:Zen and the art of motorcycle maintenance : an inquiry into values (有墙,https同样无法访问)
“WorldCat关联数据探索”界面并非给最终用户使用,除了给人看的HTML格式外,提供Turtle、N-Triple、JSON-LD和RDF/XML四种关联数据格式
所提供的实例使用如下schema.org词汇
类型(type):http://schema.org/CreativeWork 和 http://schema.org/Book(CreativeWork的下位类型)
关于(about,主题):http://schema.org/about
创作者(creator):http://schema.org/creator
描述(description,简介):http://schema.org/description
名称(name,题名):http://schema.org/name
作品实例(workExample,载体表现):http://schema.org/workExample(尚未批准的schema书目扩展?上述链接无效)

目前提供的是预览,未来数周内功能将有较大改进。现在“作品实例”已经采用了真实的标识符(如http://www.worldcat.org/oclc/191931910),可以链接到worldcat.org。而“关于”(主题)和“创作者”的标识符还是临时的(hash-URI,由作品URI和名称组成,如http://experiment.worldcat.org/entity/work/data/12477503#Topic/fathers_and_sons或http://experiment.worldcat.org/entity/work/data/12477503#Person/pirsig_robert),点击后出现placeholder reference提示框。据称未来数周内,人名将链接到虚拟国际规范档(VIAF,如http://viaf.org/viaf/78757182)。[未来主题将链接到id.loc.gov,或是FAST?]
目前发布的作品URI是永久的,采用开放数据许可(ODC-BY)。现在得到作品URI只有一个方法,就是通过xISBN、xOCLCNum服务返回的作品ID,组成作品URI:http://worldcat.org/entity/work/id/作品ID。数周内,worldcat.org已经发布的关联数据部分会嵌入到“作品”的链接。比如OCLC号为5347480的书目记录(载体表现):http://www.worldcat.org/oclc/5347480,会有:
schema:exampleOfWork http://worldcat.org/entity/work/id/12477503
“从那时起,OCLC以及其他机构将开始使用WorldCat作品URI及其描述,作为核心稳定的基础,建设图书馆领域内的实体间关系网。这个数据网,在未来岁月中,将激励数据共享,以及消费这些数据的应用与界面设计”。

via Data Liberate: OCLC Preview 194 Million Open Bibliographic Work Descriptions / Richard Wallis (2014-2-25)

附记:WorldCat统计页面只有其Knowledge Base数据,没有完整的WorldCat数据。按OCLC年度报告(Annual Report 2011/2012),截止2012.6.30的WorldCat统计:
作品数 Works 176,302,014(1.763亿)
记录数 Manifestations (records) 273,703,842(2.737亿)
馆藏数 Total holdings 1,854,243,605(18.54亿)

[update 2014-5-21] 2014.4.28 正式发布
OCLC News Release: OCLC releases WorldCat Works as linked data (DUBLIN, Ohio, 28 April 2014)
Data Liberate: WorldCat Works – 197 Million Nuggets of Linked Data / Richard Wallis (April 28, 2014)
Hangingtogether.Org: The Most Important Thing You Haven’t Heard Of / Roy Tennant (April 29, 2014)

MARC字段使用统计及可视化展示

MARC Usage in WorldCat(WorldCat中MARC使用)是OCLC研究部的一个项目(活动),由Roy Tennant主持,统计WorldCat中约3亿条书目记录所用MARC字段及子字段的出现频次,研究向WorldCat质量控制提供报告,结果也向美国国会图书馆的书目控制框架计划(Library of Congress Bibliographic Framework Transition Initiative)提供。
目前数据已公布在OCLC的实验网页(MARC Usage in WorldCat),可以从该项目页右侧的Try the online demo链接进入。
该网页主要是按字段列出WorldCat数据库中各字段(及部分子字段、指示符)的出现次数,有2013年1月1日、4月1日、7月1日和10月1日四个时间段。001字段应该是所有记录都有的,可以由此推知1月1日时书目记录为289,294,984条、馆藏为1,933,291,143条,10月1日时书目记录为305,793,670条,馆藏为2,063,992,259条——今年年中WorldCat实现了书目超3亿、馆藏超20亿。
可下载各字段的数据,也可在线请求未公布子字段的数据,但未见提供全部字段数据的下载。让人逐个字段下载实在比较无聊,各字段同时提供的数据图(Chart this Data)也没多大意思,但全部字段的可视化图做得很好,有按格式按字段两个图,前者从不同类型文献角度看各字段的出现次数及在其中所占比例,后者从字段角度看不同类型文献的出现次数及在其中所占比例(鼠标移到相应位置显示数值)。

All Formats: Zoomable Starburst - By Formats

All Formats: Zoomable Starburst – By Formats

 

 

 

All Formats: Zoomable Starburst - By Tags
All Formats: Zoomable Starburst – By Tags

 

 

 

 

 

 

 

 

 

via hangingtogether.org: Visualizations of MARC Usage (2013-12-2)

参见:OCLC Research to Study MARC Tag Usage in WorldCat to Determine Best Use of Data Encoded Using MARC Standard (2013-2-8)

WorldCat书目记录开始批量增加FAST主题

OCLC宣布从9月开始在WorldCat书目记录中逐步增加FAST主题,针对的是已经有LCSH且以英语为编目语言的记录,系统自动在后台处理、预计为期一年。OCLC称此为用FAST强化WorldCat记录,但其实针对已有LSCH的记录,只是分拆现有内容,从内容上应该称不上“强化”——不过多年来OCLC在FAST上已试验多种功能,“强化”后无疑有助于对记录作细粒度的处理

FAST(主题术语分面应用)是衍生自LCSH的完全列举分面标题表[仍为先组、并非元词法],按八个分面拆分LSCH。经处理后的MARC21记录特征是040字段有$dOCLCF。LCSH在MARC21中通常用650或651字段,FAST则拆分成8个字段,如下:
FAST分面——MARC 21字段
个人名称——600
团体名称——610
事件——611
题名——630
时序——648
论题——650
地理名称——651
形式/体裁——655
从说明文档所举样例看,,分拆后没有主题词分组的标识。对于多主题的资源,就可能出现误检,这个是情报检索语言研究中的老问题——假设有一本书讲“美国大选对日本经济的影响”,采用FAST,就可能会在查“日本大选”或“美国经济”时误命中。

via OCLC News — Announcements: Enriching WorldCat with FAST (25 September 2013)
说明文件:EnrichingWorldCatwithFAST
FAST项目主页:FAST (Faceted Application of Subject Terminology)

———-转换样例———-
由说明文件提到的几个样例,可以更清楚地了解FAST的构成。
(1)讲述美国2012大选的“Collision 2012 : Obama vs. Romney and the future of elections in America”一书(OCLC控制号818953763),原LCSH:
650 _0 $a Presidents $z United States $x Election $y 2012.
650 _0 $a Presidential candidates $z United States.
600 10 $a Obama, Barack.
600 10 $a Romney, Mitt.
FAST:
600 17 ǂa Obama, Barack. ǂ2 fast ǂ0 (OCoLC)fst00348231
600 17 ǂa Romney, Mitt. ǂ2 fast ǂ0 (OCoLC)fst00355923
650 _7 ǂa Presidential candidates. ǂ2 fast ǂ0 (OCoLC)fst01075708
650 _7 ǂa Presidents ǂx Election. ǂ2 fast ǂ0 (OCoLC)fst01075747
651 _7 ǂa United States. ǂ2 fast ǂ0 (OCoLC)fst01204155 [两个论题中的地点独立出来]
648 _7 ǂa 2012 ǂ2 fast [论题中的时间独立出来]
从上例可见,FAST并非元词法,仍然有组配(第2个650字段),只是把原650和651中$y时间和$z地点子字段变成了独立的648、651字段。6XX第2指示符7所用主题词表由ǂ2说明(即FAST);ǂ0为OCLC的FAST主题词控制号(648的2012非受控词),用于计算机连接到规范记录,系统可据此同步、纠错等。

(2)上面是一个简单例子,“作品”主题的转换略为复杂:
LCSH: 600 10 $a Shakespeare, William,$d 1564-1616 $t Macbeth.
FAST: 630 _7 ǂa Macbeth (Shakespeare, William) ǂ2 fast ǂ0 (OCoLC)fst01356136
作品主题不按“名称——题名”方式构成,而是取题名,以创作者做限定,用630字段,形式如:题名(创作者)
不知道在没有重名的情况下,是不是可以不用创作者做限定?

(3)更复杂的转换例子是论题中的“事件”:
LCSH:
600 10 $a Washington, George, $d 1732-1799
650 _0 $aTrenton, Battle of, Trenton, N.J., 1776 $v Juvenile literature.
651 _0 $aDelaware River (N.Y.-Del. and N.J.).
FAST:
600 17 ǂa Washington, George, ǂd 1732-1799 ǂ2 fast ǂ0 (OCoLC)fst00178100
611 7 ǂa Trenton, Battle of (New Jersey : 1776) ǂ2 fast ǂ0 (OCoLC)fst01404297 [论题被视为事件]
648 7 ǂa 1776 ǂ2 fast [事件中的时间独立出来]
651 7 ǂa New Jersey ǂz Trenton ǂ2 fast ǂ0 (OCoLC)fst01207908 [事件中的地点独立出来]
651 7 ǂa United States ǂz Delaware River ǂ2 fast ǂ0 (OCoLC)fst01310316 [LCSH的651地点,格式转换为:上级地名ǂz下级地名]
655 7 ǂa Juvenile works ǂ2 fast ǂ0 (OCoLC)fst01411637 [650$v体裁]
事件类似于会议(实际上应该反过来说,只是编目员更熟悉会议),用611字段,格式为:事件名称(地点:时间);地点与时间另外还要用的651与648字段重复揭示。作品类型或体裁,用655字段(本字段相对常见,以往也有用到)。

———-关于FAST——–
FAST始于1998年,当时OCLC正进行著名的对网络资源编目的CORC(Cooperative Online Resource Catalog)项目,需要简化标引规范,让非专业编目员或标引员能够做主题标引。开发FAST的意图:易学易用、分面导航友好、现代设计;主要目标:(1)与现有元数据兼容;(2)易于赋词;(3)检索有效性;(4)维护费用;(5)语义互操作。当时,ALCTS/SAC/SMSA(ALA的图书馆馆藏与技术服务协会之主题访问委员会之元数据与主题分析分委会)正提出元数据记录中主题数据的特定功能需求(ALCTS 1999),与FAST项目的预期结果吻合。目前FAST由OCLC和LC协作,ALCTS/SAC/FAST分委员成员提供建议。

FAST项目的用户界面应用包括:
searchFAST(FAST数据库的全功能检索界面)——重新设计的FASt用户检索界面于2011年11月发布
mapFAST(Google地图混搭原型,使用FAST地理与事件规范;有移动版)
FAST Converter(在Web办面转换LCSH标目到FAST标目。可以粘贴主题部分或上传MARC格式文件进行转换)
FAST Linked Data(FAST关联数据服务)——另有批量下载
assignFAST(手工选择FAST主题自动化:根据输入、选择的主题,转换为带不同子字段标识的MARC字段)
所有检索框均有输入自动提示,提示根据使用频率排列,且不限首词而是任意位置,如查Shanghai,最前面的是:China–Shanghai

FAST在OCLC其他项目中的应用(采用OCLC研究部维护的经FAST强化的内部备份数据访问WorldCat记录):
WorldCat Identities (FAST用于每个WorldCat身份档页面底部的主题标签云)
OCLC Classify(FAST词汇用作“主题”索引)
实验性的“xFinder”应用(如:Cookbook Finder)及某些基于作品的相关应用,如:Kindred Works [参见:OCLC元数据管理研究:食谱探测器与同种作品推荐(2013年9月15日)]
WorldCat.org关联数据
– 正通过FAST/VIAF中心工作,试验以FAST作为馆藏分析途径