OCLC一直在用它世界上最大的联合目录数据库Worldcat做“作品”的聚集,从FRBR化的“版本”到“作品”[1-3]。
最近,Karen Smith-Yoshimura在OCLC研究部博客上公布了WorldCat作品集数量的统计结果[4]:在WorldCat共2.07亿个作品集中,80%是单个的(singleton),即只出版过一次——既没有后续版本,也没有译为其他语种;10%出版过2次,4%出版过3次,2%出版过4次,剩下4%出版过5次及以上。用FRBR术语,一个作品出版过1次即有1个载体表现,余类推。
从数据看,“5个或以上”载体表现比例虽小,但包括庞大的作品集:包含100个及以上载体表现的作品集有3.1万个,其中最多的是但丁《神曲》,共6875个载体表现。载体表现数量排名前10的作品附后,除了《高卢战记》外,都是小说或诗歌。
博文没有公布所有前10作品的载体表现数量。从worldcat.org查询结果看,worldcat.org“版本”汇集的数量与“作品集”汇集结果不尽一致,甚至差别很大,特别如《高卢战记》在worldcat.org中只汇集了4个版本。另外,10部作品中有中文版的仅4种,显然与实际情况不符。或者说明worldcat.org中文数据还差很多,也或者只是“版本”处理不足所致——国内中文数据不重视“统一题名”,对汇集作品相当不利。
如果更多语种书目数据进入WorldCat,单个(singleton)所占百分比未必会减少,但最大作品集中包含载体表现数肯定会进一步提高。
由上述数据还可以看到,从出版物(载体表现)角度,有关联的载体表现并非原来印象中仅百分之十几,而是要高得多——百分之十几是在当年作品聚集算法还不成熟时的数据吧。
做一个计算:单个作品的载体表现数=2.07*0.8=1.656亿
截止2015-7-27 WorldCat的书目记录数(载体表现数)=339,356,427约3.393条
只有一个载体表现的比例=1.656/3.393=48.8%
即:有关联的载体表现超过一半——这比例是不是也太高了?哪里算错了?
———- WorldCat作品集Top 10 ———-出版
【括号中为worldcat.org查询结果,链接见原博文】
1. La Divina Commedia by Dante Alighieri 但丁《神曲》【6099,未收录中文版;诗】
2. The Whole Book of Psalmes by John Hopkins, Thomas Sternhold 《(旧约)圣咏集》【5241,英文版为主,3德文版、2不确定;诗】
3. The Life and Adventures of Robinson Crusoe by Daniel Defoe 迪福《鲁宾逊漂流记》【1377,1中文版;小说】
4. The Pilgrim’s Progress by John Bunyan 班扬《天路历程》【4183,3中文版;小说】
5. The Vicar of Wakefield by Oliver Goldsmith 哥尔德斯密斯《威克斐牧师传》【4183,未收录中文版;小说】
6. Paradise Lost and Paradise Regained by John Milton 弥尔顿《失乐园》和《复乐园》【2869,未收录中文版;诗】
7. Commentarii de bello Gallico by Julius Caesar 凯撒《高卢战记》【4,未收录中文版】
8. Pride and Prejudice by Jane Austen 奥斯汀《傲慢与偏见》【4000,489中文版,小说】
9. Les Aventures de Télémaque by François de Salignac de La Mothe-Fénelon《忒勒玛科斯历险记》【2825,未收录中文版,小说】
10. Treasure Island by Robert Louis Stevenson 斯蒂文斯《金银岛》【3661,5中文版,小说】
注:
[1] WorldCat作品关联数据问答(2014年3月7日)
[2] OCLC以关联数据开放1.94亿书目作品(2014年2月27日)
[3] xISBN在FRBR化中的作用(2010年6月7日)
[4] hangingtogether.org: WorldCat’s smallest and largest worksets (July 9, 2015)