li li说“用得最多的33个USMARC字段”数据太旧,希望我统计一下新一点的MARC记录。我按照“用得最多的39个CNMARC字段”的方式,统计了我馆部分新的西文数据。记录共13101条,排除MARC21中没有的字段(但保留我国定义的093-098)后,共使用了108个字段,其中有9个字段只出现一次。出现的字段数与1997年前400万条USMARC记录的统计结果基本相同。
字段计数总共为263593,平均每条记录使用20.1个字段。比CNMARC多了近1个字段,比前述USMARC多2个字段。原因呢?首先想到的是本馆保留LC分类号、DDC分类号,又增加中图分类号,偶而还没有删除其它分类号。其他原因有:完整的MARC21记录主题字段量比较大,新文献一般都有一个甚至多个ISBN,新增的856字段出现频率比较高,等等。
在本次统计中,出现频率超过百分之一的有46个字段。由于无法统计每条记录的情况,所以可重复字段的出现次数会超过100%。也就是说,即使是统计值为100%的字段,也不一定出现在每条记录中,因为可能有些记录多次出现该字段。
原USMARC数据的百分比是指在记录中出现的百分比,而本次的百分比则是出现量的百分比,两者没有可比性。但有些字段是不可重复的,对这些字段二个百分比是一致的。将二次数据作些对比还是蛮有意思的。以下是46个字段的统计数据(001、008、300应当为100%,原记录有错误),右侧为原USMARC统计数据:
字段 百分比 USMARC统计
650 209.76% 245 100%
020 144.49% 260 100%
093 100.37% 300 100%
001 100.01% 050 100%
260 100.00% 008 100%
245 100.00% 650 95%
300 99.99% 100 72%
008 99.98% 020 67%
040 99.08% 500 67%
005 97.34% 082 63%
504 83.46% 043 50%
050 81.12% 504 49%
700 79.73% 700 43%
082 77.42% 651 25%
100 71.18% 250 18%
010 69.99% 710 18%
003 65.71% 490 18%
440 35.04% 440 17%
500 34.52% 600 14%
043 31.84% 740 9.40%
042 28.63% 830 8.20%
246 25.95% 110 7.30%
250 25.34% 041 7%
651 23.03% 610 6%
856 15.80% 520 4%
534 11.68% 130 3.80%
600 11.30% 505 3.30%
041 8.97% 111 2%
710 8.53% 653 1%
490 8.43% 655 1%
830 8.41% 630 1%
035 6.19% 060 1%
505 5.98% 810 1%
015 4.43% 730 1%
094 4.31% 533 1%
546 4.30%
240 3.08%
610 2.76%
111 2.24%
655 1.34%
538 1.18%
362 1.15%
711 1.13%
310 1.05%
060 1.02%
730 1.01%
同样,由于专著记录占了数据的绝大部分,所以对于专著以外文献类型记录所用字段,这个统计数据没有帮助。但似乎比CNMARC的结果好些,至少连续出版物有310、362入围,其他022、210、222、321、580、780、785等字段则未入围。
对结果进行对比,新上榜的1619个字段依字段号分别是:001、003、005、010、015、035、040、042、093、094、240、246、310、362、534、538、546、711、856。前八个是对用户而言无关痛痒的代码和编号,似乎很无趣(当然有助于科学管理);接下来两个是中国特色,中图法、科图法必不可少;后四个是文献出版形式变化的结果:538、856主要是针对电子资源,534、546主要用于授权影印书。另外,240反映题名规范程度的提高(旧记录可能较少反映文献原题名),246则是MARC格式变化的结果,711上榜应该是由于现在会议录增多的缘故。
落榜的是:110(根据AACR2的规定,以团体作主要款目标目有很大限制)、130(是否以前重版佚名经典较多?)、520(现在反而不重视文摘了)、533(不知都著录些什么内容?旧书缩微?)、630(与130类似,以前大概研究佚名经典较多)、653(现在更多地使用规范化主题词)、740(大部分被246取代,分析题名常被505$t、700$t和730代替)、810(大概原来团体丛编较多)。
更新(2005/9/2,以上黑体字部分为本次更新)
感谢li li婉转地告知上文的上榜、落榜字段的诸多遗漏。
最后,在更仔细地确认上榜、落榜字段数字时,却发现了一个更大的错误:原来“用得最多的33个USMARC字段”实际上是35个字段。原文为“TOP 33 : The 33 most frequently used fields in LC USMARC data”――居然如此误导,而我竟然也想当然照抄不误?!
衷心感谢精灵的劳作,看来这个统计用时远比一个下午的时间多!加上精辟的点评。<br>多谢多谢!!!<br>
请查看信箱<br>