WorldCat 45周年 & OCLC API访问每天300万

上月OCLC的WorldCat庆祝了它的45周年1971年8月26日,当时名为OCLC联机联合目录的WorldCat在那天接受了来自俄亥俄大学编目员联机编目的133种图书。45年后,WorldCat已收录3.8亿多条记录、涉及世界各国图书馆24亿多件馆藏。资料类型包括图书、连续出版物、乐谱、地图、录音、视频资料、DVD、计算机文档、电子书、数字资源、混合资料等,涉及491种语言文字,其中62%为非英语。看WorldCat记录实时增长(Watch WorldCat Grow),最近加入的是哪条记录,哪个机构上传?

也是在上月,OCLC的API每天点击超过了300万。OCLC在2003年开始Open WorldCat项目,试验结束时每天的点击是4千,已被认为相当成功。之后OCLC开始提供API,目前有十多种,超过4500机构个人申请了API Key,用这些API开发的应用超过了100种。
用得最多的是WorldCat Search API,有超过50种应用,使用机构超过500家,贡献了约一半的点击。
现在甚至可以通过API,用手机向WorldCat提交简编记录,这就是供非馆员使用的Bib It,采用的是WorldCat Metadata API。

Bib It

相关:
OCLC News release: Celebrating 45 years of WorldCat (DUBLIN, Ohio, 26 August 2016)
Next: 3 million knocks on library doors every day (2016-8-3)
参见:OCLC的Open WorldCat计划(2004-10-28)

——— OCLC的Web Service一览Gallery) ———
– Article Exchange API
– Classify
– FAST API
– OpenURL Gateway
– QuestionPoint knowledge base API
– Terminology Services
– VIAF API
– WMS Acquisitions API
– WMS Collection Management API
– WorldCat Basic API
– WorldCat Discovery API
– WorldCat Identities
– WorldCat Metadata API
– WorldCat Recommender Service
– WorldCat Registry
– WorldCat Search API
– WorldCat knowledge base API
– xID API

WorldCat作品集中载体表现数量分布

OCLC一直在用它世界上最大的联合目录数据库Worldcat做“作品”的聚集,从FRBR化的“版本”到“作品”[1-3]。

最近,Karen Smith-Yoshimura在OCLC研究部博客上公布了WorldCat作品集数量的统计结果[4]:在WorldCat共2.07亿个作品集中,80%是单个的(singleton),即只出版过一次——既没有后续版本,也没有译为其他语种;10%出版过2次,4%出版过3次,2%出版过4次,剩下4%出版过5次及以上。用FRBR术语,一个作品出版过1次即有1个载体表现,余类推。
Manifestations per WorldCat Work
从数据看,“5个或以上”载体表现比例虽小,但包括庞大的作品集:包含100个及以上载体表现的作品集有3.1万个,其中最多的是但丁《神曲》,共6875个载体表现载体表现数量排名前10的作品附后,除了《高卢战记》外,都是小说或诗歌。
博文没有公布所有前10作品的载体表现数量。从worldcat.org查询结果看,worldcat.org“版本”汇集的数量与“作品集”汇集结果不尽一致,甚至差别很大,特别如《高卢战记》在worldcat.org中只汇集了4个版本。另外,10部作品中有中文版的仅4种,显然与实际情况不符。或者说明worldcat.org中文数据还差很多,也或者只是“版本”处理不足所致——国内中文数据不重视“统一题名”,对汇集作品相当不利
如果更多语种书目数据进入WorldCat,单个(singleton)所占百分比未必会减少,但最大作品集中包含载体表现数肯定会进一步提高。

由上述数据还可以看到,从出版物(载体表现)角度,有关联的载体表现并非原来印象中仅百分之十几,而是要高得多——百分之十几是在当年作品聚集算法还不成熟时的数据吧。
做一个计算:单个作品的载体表现数=2.07*0.8=1.656亿
截止2015-7-27 WorldCat的书目记录数(载体表现数)=339,356,427约3.393条
只有一个载体表现的比例=1.656/3.393=48.8%
即:有关联的载体表现超过一半——这比例是不是也太高了?哪里算错了?

———- WorldCat作品集Top 10 ———-出版
【括号中为worldcat.org查询结果,链接见原博文】
1. La Divina Commedia by Dante Alighieri 但丁《神曲》【6099,未收录中文版;诗】
2. The Whole Book of Psalmes by John Hopkins, Thomas Sternhold 《(旧约)圣咏集》【5241,英文版为主,3德文版、2不确定;诗】
3. The Life and Adventures of Robinson Crusoe by Daniel Defoe 迪福《鲁宾逊漂流记》【1377,1中文版;小说】
4. The Pilgrim’s Progress by John Bunyan 班扬《天路历程》【4183,3中文版;小说】
5. The Vicar of Wakefield by Oliver Goldsmith 哥尔德斯密斯《威克斐牧师传》【4183,未收录中文版;小说】
6. Paradise Lost and Paradise Regained by John Milton 弥尔顿《失乐园》和《复乐园》【2869,未收录中文版;诗】
7. Commentarii de bello Gallico by Julius Caesar 凯撒《高卢战记》【4,未收录中文版】
8. Pride and Prejudice by Jane Austen 奥斯汀《傲慢与偏见》【4000,489中文版,小说】
9. Les Aventures de Télémaque by François de Salignac de La Mothe-Fénelon《忒勒玛科斯历险记》【2825,未收录中文版,小说】
10. Treasure Island by Robert Louis Stevenson 斯蒂文斯《金银岛》【3661,5中文版,小说】

注:
[1] WorldCat作品关联数据问答(2014年3月7日)
[2] OCLC以关联数据开放1.94亿书目作品(2014年2月27日)
[3] xISBN在FRBR化中的作用(2010年6月7日)
[4] hangingtogether.org: WorldCat’s smallest and largest worksets (July 9, 2015)

从Worldcat的MARC字段统计看RDA记录的快速增长

OCLC研究部自2013年开始“WorldCat中MARC使用”项目(MARC Usage in WorldCat)【有墙】,统计WorldCat书目记录所用MARC字段及子字段的出现频次。目前提供各年1月1日时各字段、子字段的出现次数(包括书目及对应馆藏),2015年数据刚发布(以下各年均指1月1日数据)。
hangingtogether: New MARC Usage Data Available / Roy Tennant (February 24, 2015)

Roy Tennant在上述博文中分析了336-338字段出现次数的增长:2014年为0.9-1千万,2015年已达4-5千万。
如果凭上述数据,说RDA记录在一年中增加约4千万,恐怕是超出了现实。
以每条记录均有的001字段计算,2014年WorldCat书目记录为311,114,134条,2015年为333,518,928,一年增加量为22,404,794,其中自然不可能都是RDA记录。因而可以推测,在这一年中,除了原生的RDA记录,还有大量记录批量增加了336-338字段,成为“混合记录”。
通过批量增加及原生提交,目前Worldcat中有336-338字段的记录数已占15%。

要更好地判断原生RDA记录数量,或许用264字段比较合适,这是专为RDA而新增、且“混合记录”批处理中未包含此字段。三年数据如下:
2013年 53,586
2014年 982,353(增加928,767条)
2015年 2,930,979(增加1,948,626)
以上数据说明,2013年一季度后RDA实施推开,当年WorldCat增加RDA记录近93万条;2014年增加近200万条,绝对增加量为2014年的一倍以上。

WorldCat记录数量的快速增长主要靠大型书目机构(如国家图书馆、联合目录)批量导入旧记录,因而虽然2015年RDA记录在年新增记录中只占8.7%,但一年新增近200万条的数量已相当可观。

近几个月抽查某馆西文数据,发现2014年出版文献的记录中,RDA记录数量已占90%左右。

参见:
关于MARC使用项目:MARC字段使用统计及可视化展示(2013年12月7日)
关于“混合记录”:OCLC的RDA政策声明(2013年1月14日)