从Worldcat的MARC字段统计看RDA记录的快速增长

OCLC研究部自2013年开始“WorldCat中MARC使用”项目(MARC Usage in WorldCat)【有墙】,统计WorldCat书目记录所用MARC字段及子字段的出现频次。目前提供各年1月1日时各字段、子字段的出现次数(包括书目及对应馆藏),2015年数据刚发布(以下各年均指1月1日数据)。
hangingtogether: New MARC Usage Data Available / Roy Tennant (February 24, 2015)

Roy Tennant在上述博文中分析了336-338字段出现次数的增长:2014年为0.9-1千万,2015年已达4-5千万。
如果凭上述数据,说RDA记录在一年中增加约4千万,恐怕是超出了现实。
以每条记录均有的001字段计算,2014年WorldCat书目记录为311,114,134条,2015年为333,518,928,一年增加量为22,404,794,其中自然不可能都是RDA记录。因而可以推测,在这一年中,除了原生的RDA记录,还有大量记录批量增加了336-338字段,成为“混合记录”。
通过批量增加及原生提交,目前Worldcat中有336-338字段的记录数已占15%。

要更好地判断原生RDA记录数量,或许用264字段比较合适,这是专为RDA而新增、且“混合记录”批处理中未包含此字段。三年数据如下:
2013年 53,586
2014年 982,353(增加928,767条)
2015年 2,930,979(增加1,948,626)
以上数据说明,2013年一季度后RDA实施推开,当年WorldCat增加RDA记录近93万条;2014年增加近200万条,绝对增加量为2014年的一倍以上。

WorldCat记录数量的快速增长主要靠大型书目机构(如国家图书馆、联合目录)批量导入旧记录,因而虽然2015年RDA记录在年新增记录中只占8.7%,但一年新增近200万条的数量已相当可观。

近几个月抽查某馆西文数据,发现2014年出版文献的记录中,RDA记录数量已占90%左右。

参见:
关于MARC使用项目:MARC字段使用统计及可视化展示(2013年12月7日)
关于“混合记录”:OCLC的RDA政策声明(2013年1月14日)

WorldCat作品关联数据问答

相关博文:OCLC以关联数据开放1.94亿书目作品(2014-2-27)[2014.4.28 正式发布]

Richard Wallis预告WorldCat作品关联数据之后(最早是在南非开普敦举行OCLC的EMEA地区委员会会议上),邮箱和推特等收到了很多回应,于是在自己博客上统一做了解答。摘译若干【本人想法】:
WorldCat Works Linked Data – Some Answers To Early Questions (March 4, 2014)

– 作品的准则是什么【尽管源自FRBR研究,但并不严格按照FRBR定义,只是从现有书目数据可以如何聚集考虑】
”作品“定义更多是若干相互依赖的算法处理结果,而不是一套简单的准则。……产生这些定义以及关系的工作是OCLC研究部针对FRBR的一项多年研究的持续结果:OCLC Research Activities and IFLA’s Functional Requirements for Bibliographic Records  [包括FictionFinder、xISBN、FRBR作品集算法、Work Records in WorldCat等]

– 会不会链接到单独的ISBN/ISNI记录【尽管没有做出决定,但和国际标准名称标识ISNI相比,无疑会更偏爱自家的虚拟国际规范档VIAF】
* ISBN – 用FRBR术语,ISBN是载体表现实体的属性,在已发布的WorldCat关联数据中可以找到。因为每个作品用schema:workExample链接到相关的载体表现实体,因此已链接到ISBN。
* ISNI – ISNI是个人标识号,ISNI的URI是链接作品到其他实体类型的候选者。VIAF的URI是我们会使用的个人/团体实体的另一个候选者,因为我们有数据。还没有最后决定用哪个URI,以及是否对相同关系使用多个URI。是对相同个人使用ISNI、VIAF和Dbpedia的URI,还是使用一个,然后依赖规范中心间的相互连接,是个还没有得出结论的问题。

– 当创建作品的记录组变化时,稳定的标识号如何管理【未定】
……当作品组分开或合并时,标识号如何维护的问题。这是未来数周这批数据完整发布前,开发团队正致力的任务之一。……

– 是否有批下载数据:没有【解释略。可以想见】

– WorldCat作品如何与BIBFRAME模型形成交集?对bf:Work的bf:hasAuthority,这些作品描述会很有用。【BF并非首选的考虑,Schema.org+SchemaBibEx才是OCLC的选择】
OCLC团队监控、参与、考虑许多可能——BIBFRAME、Schema.org、SchemaBibEx、WikiData等,这些对象有一些明显的协同效应,在方法及/或细节层面上对不同使用对象也有差异。使用sameAs互联数据集的潜在性,以及其他规范关系是重要的。随着WorldCat数据成熟以及其他数据集发布,大家会期望从一开始就关联许多不同来源的书目数据。

– 会使用ISTC么【作品不用。国际标准文本码ISTC基于语言分配,作品集中肯定会对应不只一个。只能如ISBN般做外部链接】
这方面现在做决定还太早。但我们不会期望存储ISTC号为作品的属性。ISTC是很多基于作品的数据集之一,调查识别相互间的sameAs关系将会很有趣。
ISTC号是基于语言分配的。以FRBR术语,出版语言与内容表达相关,而非作品层描述。因此在”作品“中不会有ISTC——我曾经的回答是:
— 注意WorldCat.org发布的作品被定义为schema:Creativework的实例。
— ……WorldCat也许不严格遵守FRBR规则与层级。我说”也许“也针对其后的建模,特定语言的作品也许只是一个更一般作品的实例——也许更像内容表达。在FRBR规则与更广泛的非图书馆理解之间,需要有一个平衡。

– 使用哪个三元组库(triplestore):不使用【解释略】

OCLC以关联数据开放1.94亿书目作品

OCLC技术布道者Richard Wallis日前迫不及待地在自己的博客上预告,OCLC将发布1.94亿关联数据“书目作品”描述,以“WorldCat关联数据探索”(WorldCat Linked Data Explorer)界面提供。据称这是WorldCat关联数据的首次产品发布(This is the first production release of WorldCat infrastructure delivering linked data.)——我理解,之前worldcat.org只是在原细览页面下方加了个关联数据栏目(参见“WorldCat也关联数据了”,2012年6月21日),这次是经整理的WorldCat“作品”完全以关联数据方式发布。
这里的“作品”可以认为是FRBR概念:“作品是资源的高级描述,包含如作者、名称[题名]、描述、主题等作品所有版本共同的信息。描述格式基于Schema.org词汇的创作作品类所定义的某些属性。在WorldCat作品描述中,也包括到WorldCat中已经共享的、有OCLC号的个别版本的[关联数据]链接”。而worldcat.org中的则是FRBR载体表现记录。
Wallis提供的一个作品实例是:Zen and the art of motorcycle maintenance : an inquiry into values (有墙,https同样无法访问)
“WorldCat关联数据探索”界面并非给最终用户使用,除了给人看的HTML格式外,提供Turtle、N-Triple、JSON-LD和RDF/XML四种关联数据格式
所提供的实例使用如下schema.org词汇
类型(type):http://schema.org/CreativeWork 和 http://schema.org/Book(CreativeWork的下位类型)
关于(about,主题):http://schema.org/about
创作者(creator):http://schema.org/creator
描述(description,简介):http://schema.org/description
名称(name,题名):http://schema.org/name
作品实例(workExample,载体表现):http://schema.org/workExample(尚未批准的schema书目扩展?上述链接无效)

目前提供的是预览,未来数周内功能将有较大改进。现在“作品实例”已经采用了真实的标识符(如http://www.worldcat.org/oclc/191931910),可以链接到worldcat.org。而“关于”(主题)和“创作者”的标识符还是临时的(hash-URI,由作品URI和名称组成,如http://experiment.worldcat.org/entity/work/data/12477503#Topic/fathers_and_sons或http://experiment.worldcat.org/entity/work/data/12477503#Person/pirsig_robert),点击后出现placeholder reference提示框。据称未来数周内,人名将链接到虚拟国际规范档(VIAF,如http://viaf.org/viaf/78757182)。[未来主题将链接到id.loc.gov,或是FAST?]
目前发布的作品URI是永久的,采用开放数据许可(ODC-BY)。现在得到作品URI只有一个方法,就是通过xISBN、xOCLCNum服务返回的作品ID,组成作品URI:http://worldcat.org/entity/work/id/作品ID。数周内,worldcat.org已经发布的关联数据部分会嵌入到“作品”的链接。比如OCLC号为5347480的书目记录(载体表现):http://www.worldcat.org/oclc/5347480,会有:
schema:exampleOfWork http://worldcat.org/entity/work/id/12477503
“从那时起,OCLC以及其他机构将开始使用WorldCat作品URI及其描述,作为核心稳定的基础,建设图书馆领域内的实体间关系网。这个数据网,在未来岁月中,将激励数据共享,以及消费这些数据的应用与界面设计”。

via Data Liberate: OCLC Preview 194 Million Open Bibliographic Work Descriptions / Richard Wallis (2014-2-25)

附记:WorldCat统计页面只有其Knowledge Base数据,没有完整的WorldCat数据。按OCLC年度报告(Annual Report 2011/2012),截止2012.6.30的WorldCat统计:
作品数 Works 176,302,014(1.763亿)
记录数 Manifestations (records) 273,703,842(2.737亿)
馆藏数 Total holdings 1,854,243,605(18.54亿)

[update 2014-5-21] 2014.4.28 正式发布
OCLC News Release: OCLC releases WorldCat Works as linked data (DUBLIN, Ohio, 28 April 2014)
Data Liberate: WorldCat Works – 197 Million Nuggets of Linked Data / Richard Wallis (April 28, 2014)
Hangingtogether.Org: The Most Important Thing You Haven’t Heard Of / Roy Tennant (April 29, 2014)