WorldCat书目记录2009统计分析

    OCLC首席科学家Thomas Hickey在博客上发布了2009年10月1日的WorldCat书目记录统计(Bibliographic Statistics 2009,无轻功免点),2007年3月他也做过同样的统计。
    在这二年半中,WorldCat书目记录从0.83亿条飞升到近1.46亿条(不包括worldcat.org所含文摘索引数据库中的记录),增加了80%。如此发展,当然不是靠人一条条做进去的。近年WorldCat批量加入了很多国家图书馆
(包括中国国家图书馆)与大型书目库的记录,今天还看到”Credo Reference is adding MARC records to WorldCat“,一加就是300多万条,当然不全部是新增,其中一些WorldCat中已有的,只是在记录中加一个可检索的来源标记。
    与之相比,馆藏从11.2亿增长至14.7亿,3.5亿也是一个惊人的数字。

    特别有意思的另两组数字:MARC平均记录长度从803字节下降到785字节,每记录字段数从15.4个下降到14.9个。恐怕大多数人看到这两组对比数字,都会想到这体现了书目的简化趋势。或许Hickey当初也是这么想的,但他还提供了另一组数字:不同的MARC子字段数从1670上升为3278,几乎番翻。Hickey认为,虽然增加了6300万条记录,也不至于会有这个结果。想来原因正是很多非美国编目记录的加入,或许原来所用MARC子字段与MARC21不尽相同,或许原来用UNIMARC家族的,转换为MARC21后对应到非常用的MARC21子字段。
    在关于MARC的争论中,曾经有一点是MARC有那么多字段、子字段没什么人用。WorldCat的这个统计或许说明,如果放大到全球,那么使用的子字段或许更多些。放着不用或没有用,总强过要用而无可用──这是编目员在分类或编目时经常头痛的事。

    由于今日失却最后的上网护身符洋葱头(Tor),武功尽失。今做托钵僧,乞轻功高手下载WorldCat2009年统计数据表(Bibstats2009)后赠予本人。阿弥陀佛,善哉善哉!