一无所有

    终于明白toPim是无法再访问的了。raenoll在8月4日就说,toPim的开发团队“六月之后好像就像人间蒸发一样”了。可惜我是在toPim无法访问后才查到他的文章的。

    toPim无法访问了,多少人在那里订阅的RSS就此消失无踪了。游园说,整个世界都沉默了,大概是IT界的bloggers早已看惯潮起潮落。

    我只是不明白,为什么toPim就不能在知道无法维持或者无意维护之后,发一个简单的通告,让大家可以花上半分钟的时间,导出所有的订阅?
    古语说,“好事做到底,送佛送到西”。做好事而不做到底,难道不是比不做还糟吗?

    我没有一千个订阅,那些丢失的RSS源会慢慢地被找回。
    如果我放在Flickr上的图片无法访问了,如果我存放在Gmail邮箱中的资料无法访问了,我会期望自己的硬盘、U盘上还有其它备份。然而,如果我的网摘就此无法访问了,我到哪里去找回我的记忆?
   
    当我们依赖上网络、依赖上网络存储,就要时刻准备着倾刻间一无所有。

 

用得最多的46个MARC21字段

    li li说“用得最多的33个USMARC字段”数据太旧,希望我统计一下新一点的MARC记录。我按照“用得最多的39个CNMARC字段”的方式,统计了我馆部分新的西文数据。记录共13101条,排除MARC21中没有的字段(但保留我国定义的093-098)后,共使用了108个字段,其中有9个字段只出现一次。出现的字段数与1997年前400万条USMARC记录的统计结果基本相同。
    字段计数总共为263593,平均每条记录使用20.1个字段。比CNMARC多了近1个字段,比前述USMARC多2个字段。原因呢?首先想到的是本馆保留LC分类号、DDC分类号,又增加中图分类号,偶而还没有删除其它分类号。其他原因有:完整的MARC21记录主题字段量比较大,新文献一般都有一个甚至多个ISBN,新增的856字段出现频率比较高,等等。

    在本次统计中,出现频率超过百分之一的有46个字段。由于无法统计每条记录的情况,所以可重复字段的出现次数会超过100%。也就是说,即使是统计值为100%的字段,也不一定出现在每条记录中,因为可能有些记录多次出现该字段。
    原USMARC数据的百分比是指在记录中出现的百分比,而本次的百分比则是出现量的百分比,两者没有可比性。但有些字段是不可重复的,对这些字段二个百分比是一致的。将二次数据作些对比还是蛮有意思的。以下是46个字段的统计数据(001、008、300应当为100%,原记录有错误),右侧为原USMARC统计数据:

字段 百分比 USMARC统计 
650 209.76%  245 100%
020 144.49%  260 100%
093 100.37%  300 100%
001 100.01%  050 100%
260 100.00%  008 100%
245 100.00%  650 95%
300  99.99%  100 72%
008  99.98%  020 67%
040  99.08%  500 67%
005  97.34%  082 63%
504  83.46%  043 50%
050  81.12%  504 49%
700  79.73%  700 43%
082  77.42%  651 25%
100  71.18%  250 18%
010  69.99%  710 18%
003  65.71%  490 18%
440  35.04%  440 17%
500  34.52%  600 14%
043  31.84%  740 9.40%
042  28.63%  830 8.20%
246  25.95%  110 7.30%
250  25.34%  041 7%
651  23.03%  610 6%
856  15.80%  520 4%
534  11.68%  130 3.80%
600  11.30%  505 3.30%
041   8.97%  111 2%
710   8.53%  653 1%
490   8.43%  655 1%
830   8.41%  630 1%
035   6.19%  060 1%
505   5.98%  810 1%
015   4.43%  730 1%
094   4.31%  533 1%
546   4.30%   
240   3.08%   
610   2.76%   
111   2.24%   
655   1.34%   
538   1.18%   
362   1.15%   
711   1.13%   
310   1.05%   
060   1.02%   
730   1.01%   

    同样,由于专著记录占了数据的绝大部分,所以对于专著以外文献类型记录所用字段,这个统计数据没有帮助。但似乎比CNMARC的结果好些,至少连续出版物有310、362入围,其他022、210、222、321、580、780、785等字段则未入围。
    对结果进行对比,新上榜的1619个字段依字段号分别是:001、003、005、010、015、035、040、042、093、094、240、246、310、362、534、538、546、711、856。前八个是对用户而言无关痛痒的代码和编号,似乎很无趣(当然有助于科学管理);接下来两个是中国特色,中图法、科图法必不可少;后四个是文献出版形式变化的结果:538、856主要是针对电子资源,534、546主要用于授权影印书。另外,240反映题名规范程度的提高(旧记录可能较少反映文献原题名),246则是MARC格式变化的结果,711上榜应该是由于现在会议录增多的缘故
    落榜的是:110(根据AACR2的规定,以团体作主要款目标目有很大限制)、130(是否以前重版佚名经典较多?)、520(现在反而不重视文摘了)、533(不知都著录些什么内容?旧书缩微?)、630(与130类似,以前大概研究佚名经典较多)、653(现在更多地使用规范化主题词)、740(大部分被246取代,分析题名常被505$t、700$t和730代替、810(大概原来团体丛编较多)

更新(2005/9/2,以上黑体字部分为本次更新)
    感谢li li婉转地告知上文的上榜、落榜字段的诸多遗漏。
    最后,在更仔细地确认上榜、落榜字段数字时,却发现了一个更大的错误:原来“用得最多的33个USMARC字段”实际上是35个字段。原文为“TOP 33 : The 33 most frequently used fields in LC USMARC data”――居然如此误导,而我竟然也想当然照抄不误?!

 

读《百年文萃》之终篇

    相信看过《百年文萃――空谷余音》者,对主编的激情文字不会没有印象。且不说各部分前的导言,单是每篇收录文章前的聊聊数语就很有神采,既勾勒出特定社会背景下的图书馆与图书馆学状态,又在总结作者成就的同时,点评出文章的精华。自己读书时不曾学过图书馆学史,那些民国年间作者的原文又是首次看到,很容易受到点评文字及其行文气势的暗示而接受其观点。
    点评的这种行文方式未曾在以往的文集中见过,总觉得有点异类。不过,如果作为教学参考书,比之编者一言不发或仅有一篇概论性前言后记的资料汇编,无疑对学生更具吸引力。何况点评还兼具引导读者进一步阅读相关的文献之职能。

    虽然是图书馆学史的外行,但也想指出书中的一个小问题:
    书中各文的年代,均按文献出版年代,本无不可,只是首篇徐树兰《为捐建绍郡古越藏书楼恳请奏咨立案文》标为1904年,却让人觉得有些不是滋味。因为徐树兰1900年开始建古越藏书楼,惜于1902年正式对外开放前病故。此立案文及《附:古越藏书楼章程》当写于1900-1902年之间。书中所收谢灼华《论“古越藏书楼”在中国近代图书馆史上的地位》一文,认为此呈文写于1902年。如在书中对此加以说明,或许不至让人困惑。

    最后,因为写几篇读后感时查找书中原句不便之故,竟然奢望《百年文萃》应该有一个索引!书中所收钱亚新的《索引与索引法》(1936年)对书籍索引之功用有详尽的解说,并引用美国政治家、律师宾尼(Horace Binney)之说:

    我以为一本好的书籍,假使没有一个好的索引,要失掉它一半的价值。因为没有这种指引的工具,不管是背诵或推想,要想将书中所包涵最精彩的思想和最动人的事迹使之再现,简直不可能。

    信然。可在西文书是“没有索引的,百不得一二”,在中文书却是“有索引的,百不得一二”。不能苛求了――木已成舟,求又何用?

相关信息:
范并思主编《百年文萃――空谷余音》中国城市出版社2005(中国图书馆学会主编《中国图书馆“百年”系列丛书》)