忙中偷闲,抽取本馆2004年的部分CNMARC数据,作了一个类似的字段使用频率统计。总共18418条记录,除本地使用字段外,共使用了90个字段。其中有11个字段只出现了一次,除非书资料外,相信有几个只出现一次的字段为著录错误所致。
字段计数总共为355680,平均每条记录使用19.3个字段。平均每记录使用字段比前述USMARC统计的18个字段为多也是理所当然的,因为USMARC一个必备的008字段,在CNMARC就至少要用上必备100、101、102,对于数据量最大的专著,还要加上105、106。如此说来,似乎CNMARC记录的总体信息量要少于USMARC记录?可能相对来说,由于后组的原因,CNMARC主题字段数量略少。
在本次统计中,出现频率超过百分之一的字段为39个,出现频率超过千分之一的有56个字段,出现频率超过万分之一(1次以上)的有79个字段。由于无法统计每条记录的情况,所以可重复字段的出现次数会超过100%。也就是说,即使是统计值为100%的字段,也不一定出现在每条记录中,因为可能有些记录出现多次该字段。以下是39个字段及其统计数据(某些字段应当为100%,如001、100、101、102、200、215,原记录有错误):
701 121.65%
606 118.82%
801 113.93%
690 113.36%
010 105.77%
001 100.01%
210 100.00%
101 99.99%
200 99.99%
102 99.99%
215 99.99%
100 99.98%
106 99.93%
105 99.02%
005 89.14%
410 59.96%
225 54.59%
320 50.96%
702 30.84%
330 27.49%
517 26.81%
510 25.74%
314 12.33%
300 11.70%
312 8.85%
711 7.76%
600 7.18%
306 7.03%
205 5.79%
333 4.75%
305 3.53%
092 2.28%
304 1.87%
712 1.86%
601 1.84%
327 1.79%
605 1.58%
311 1.48%
607 1.05%
由于专著记录占了数据的绝大部分,所以对于专著以外文献类型记录所用字段,这个统计数据显然是没有帮助的。如连续出版物的110、207、326、310、011字段均未入围,单独统计时,前三个字段的出现率为100%,后二个字段分别是8%和4%。
这个统计的样本不够大,与前述USMARC统计的400多万没有可比性。但由于采用的是较新的记录,或许更能反映目前CNMARC的使用情况。不过,CNMARC目前应用上有一些分歧,采用不同标准的图书馆,统计结果也会有一定的影响,比如本馆不采用411、461、462字段之类,导致410字段出现频率较高。
请教cat wizard,使用什么软件进行的字段使用频率统计?<br>谢谢!<br>
没有用特别的软件。我们的集成系统可以抽取数据进行各种统计。<br>