WorldCat作品集中载体表现数量分布

OCLC一直在用它世界上最大的联合目录数据库Worldcat做“作品”的聚集,从FRBR化的“版本”到“作品”[1-3]。

最近,Karen Smith-Yoshimura在OCLC研究部博客上公布了WorldCat作品集数量的统计结果[4]:在WorldCat共2.07亿个作品集中,80%是单个的(singleton),即只出版过一次——既没有后续版本,也没有译为其他语种;10%出版过2次,4%出版过3次,2%出版过4次,剩下4%出版过5次及以上。用FRBR术语,一个作品出版过1次即有1个载体表现,余类推。
Manifestations per WorldCat Work
从数据看,“5个或以上”载体表现比例虽小,但包括庞大的作品集:包含100个及以上载体表现的作品集有3.1万个,其中最多的是但丁《神曲》,共6875个载体表现载体表现数量排名前10的作品附后,除了《高卢战记》外,都是小说或诗歌。
博文没有公布所有前10作品的载体表现数量。从worldcat.org查询结果看,worldcat.org“版本”汇集的数量与“作品集”汇集结果不尽一致,甚至差别很大,特别如《高卢战记》在worldcat.org中只汇集了4个版本。另外,10部作品中有中文版的仅4种,显然与实际情况不符。或者说明worldcat.org中文数据还差很多,也或者只是“版本”处理不足所致——国内中文数据不重视“统一题名”,对汇集作品相当不利
如果更多语种书目数据进入WorldCat,单个(singleton)所占百分比未必会减少,但最大作品集中包含载体表现数肯定会进一步提高。

由上述数据还可以看到,从出版物(载体表现)角度,有关联的载体表现并非原来印象中仅百分之十几,而是要高得多——百分之十几是在当年作品聚集算法还不成熟时的数据吧。
做一个计算:单个作品的载体表现数=2.07*0.8=1.656亿
截止2015-7-27 WorldCat的书目记录数(载体表现数)=339,356,427约3.393条
只有一个载体表现的比例=1.656/3.393=48.8%
即:有关联的载体表现超过一半——这比例是不是也太高了?哪里算错了?

———- WorldCat作品集Top 10 ———-出版
【括号中为worldcat.org查询结果,链接见原博文】
1. La Divina Commedia by Dante Alighieri 但丁《神曲》【6099,未收录中文版;诗】
2. The Whole Book of Psalmes by John Hopkins, Thomas Sternhold 《(旧约)圣咏集》【5241,英文版为主,3德文版、2不确定;诗】
3. The Life and Adventures of Robinson Crusoe by Daniel Defoe 迪福《鲁宾逊漂流记》【1377,1中文版;小说】
4. The Pilgrim’s Progress by John Bunyan 班扬《天路历程》【4183,3中文版;小说】
5. The Vicar of Wakefield by Oliver Goldsmith 哥尔德斯密斯《威克斐牧师传》【4183,未收录中文版;小说】
6. Paradise Lost and Paradise Regained by John Milton 弥尔顿《失乐园》和《复乐园》【2869,未收录中文版;诗】
7. Commentarii de bello Gallico by Julius Caesar 凯撒《高卢战记》【4,未收录中文版】
8. Pride and Prejudice by Jane Austen 奥斯汀《傲慢与偏见》【4000,489中文版,小说】
9. Les Aventures de Télémaque by François de Salignac de La Mothe-Fénelon《忒勒玛科斯历险记》【2825,未收录中文版,小说】
10. Treasure Island by Robert Louis Stevenson 斯蒂文斯《金银岛》【3661,5中文版,小说】

注:
[1] WorldCat作品关联数据问答(2014年3月7日)
[2] OCLC以关联数据开放1.94亿书目作品(2014年2月27日)
[3] xISBN在FRBR化中的作用(2010年6月7日)
[4] hangingtogether.org: WorldCat’s smallest and largest worksets (July 9, 2015)

从Worldcat的MARC字段统计看RDA记录的快速增长

OCLC研究部自2013年开始“WorldCat中MARC使用”项目(MARC Usage in WorldCat)【有墙】,统计WorldCat书目记录所用MARC字段及子字段的出现频次。目前提供各年1月1日时各字段、子字段的出现次数(包括书目及对应馆藏),2015年数据刚发布(以下各年均指1月1日数据)。
hangingtogether: New MARC Usage Data Available / Roy Tennant (February 24, 2015)

Roy Tennant在上述博文中分析了336-338字段出现次数的增长:2014年为0.9-1千万,2015年已达4-5千万。
如果凭上述数据,说RDA记录在一年中增加约4千万,恐怕是超出了现实。
以每条记录均有的001字段计算,2014年WorldCat书目记录为311,114,134条,2015年为333,518,928,一年增加量为22,404,794,其中自然不可能都是RDA记录。因而可以推测,在这一年中,除了原生的RDA记录,还有大量记录批量增加了336-338字段,成为“混合记录”。
通过批量增加及原生提交,目前Worldcat中有336-338字段的记录数已占15%。

要更好地判断原生RDA记录数量,或许用264字段比较合适,这是专为RDA而新增、且“混合记录”批处理中未包含此字段。三年数据如下:
2013年 53,586
2014年 982,353(增加928,767条)
2015年 2,930,979(增加1,948,626)
以上数据说明,2013年一季度后RDA实施推开,当年WorldCat增加RDA记录近93万条;2014年增加近200万条,绝对增加量为2014年的一倍以上。

WorldCat记录数量的快速增长主要靠大型书目机构(如国家图书馆、联合目录)批量导入旧记录,因而虽然2015年RDA记录在年新增记录中只占8.7%,但一年新增近200万条的数量已相当可观。

近几个月抽查某馆西文数据,发现2014年出版文献的记录中,RDA记录数量已占90%左右。

参见:
关于MARC使用项目:MARC字段使用统计及可视化展示(2013年12月7日)
关于“混合记录”:OCLC的RDA政策声明(2013年1月14日)

WorldCat作品关联数据问答

相关博文:OCLC以关联数据开放1.94亿书目作品(2014-2-27)[2014.4.28 正式发布]

Richard Wallis预告WorldCat作品关联数据之后(最早是在南非开普敦举行OCLC的EMEA地区委员会会议上),邮箱和推特等收到了很多回应,于是在自己博客上统一做了解答。摘译若干【本人想法】:
WorldCat Works Linked Data – Some Answers To Early Questions (March 4, 2014)

– 作品的准则是什么【尽管源自FRBR研究,但并不严格按照FRBR定义,只是从现有书目数据可以如何聚集考虑】
”作品“定义更多是若干相互依赖的算法处理结果,而不是一套简单的准则。……产生这些定义以及关系的工作是OCLC研究部针对FRBR的一项多年研究的持续结果:OCLC Research Activities and IFLA’s Functional Requirements for Bibliographic Records  [包括FictionFinder、xISBN、FRBR作品集算法、Work Records in WorldCat等]

– 会不会链接到单独的ISBN/ISNI记录【尽管没有做出决定,但和国际标准名称标识ISNI相比,无疑会更偏爱自家的虚拟国际规范档VIAF】
* ISBN – 用FRBR术语,ISBN是载体表现实体的属性,在已发布的WorldCat关联数据中可以找到。因为每个作品用schema:workExample链接到相关的载体表现实体,因此已链接到ISBN。
* ISNI – ISNI是个人标识号,ISNI的URI是链接作品到其他实体类型的候选者。VIAF的URI是我们会使用的个人/团体实体的另一个候选者,因为我们有数据。还没有最后决定用哪个URI,以及是否对相同关系使用多个URI。是对相同个人使用ISNI、VIAF和Dbpedia的URI,还是使用一个,然后依赖规范中心间的相互连接,是个还没有得出结论的问题。

– 当创建作品的记录组变化时,稳定的标识号如何管理【未定】
……当作品组分开或合并时,标识号如何维护的问题。这是未来数周这批数据完整发布前,开发团队正致力的任务之一。……

– 是否有批下载数据:没有【解释略。可以想见】

– WorldCat作品如何与BIBFRAME模型形成交集?对bf:Work的bf:hasAuthority,这些作品描述会很有用。【BF并非首选的考虑,Schema.org+SchemaBibEx才是OCLC的选择】
OCLC团队监控、参与、考虑许多可能——BIBFRAME、Schema.org、SchemaBibEx、WikiData等,这些对象有一些明显的协同效应,在方法及/或细节层面上对不同使用对象也有差异。使用sameAs互联数据集的潜在性,以及其他规范关系是重要的。随着WorldCat数据成熟以及其他数据集发布,大家会期望从一开始就关联许多不同来源的书目数据。

– 会使用ISTC么【作品不用。国际标准文本码ISTC基于语言分配,作品集中肯定会对应不只一个。只能如ISBN般做外部链接】
这方面现在做决定还太早。但我们不会期望存储ISTC号为作品的属性。ISTC是很多基于作品的数据集之一,调查识别相互间的sameAs关系将会很有趣。
ISTC号是基于语言分配的。以FRBR术语,出版语言与内容表达相关,而非作品层描述。因此在”作品“中不会有ISTC——我曾经的回答是:
— 注意WorldCat.org发布的作品被定义为schema:Creativework的实例。
— ……WorldCat也许不严格遵守FRBR规则与层级。我说”也许“也针对其后的建模,特定语言的作品也许只是一个更一般作品的实例——也许更像内容表达。在FRBR规则与更广泛的非图书馆理解之间,需要有一个平衡。

– 使用哪个三元组库(triplestore):不使用【解释略】