用得最多的46个MARC21字段

    li li说“用得最多的33个USMARC字段”数据太旧,希望我统计一下新一点的MARC记录。我按照“用得最多的39个CNMARC字段”的方式,统计了我馆部分新的西文数据。记录共13101条,排除MARC21中没有的字段(但保留我国定义的093-098)后,共使用了108个字段,其中有9个字段只出现一次。出现的字段数与1997年前400万条USMARC记录的统计结果基本相同。
    字段计数总共为263593,平均每条记录使用20.1个字段。比CNMARC多了近1个字段,比前述USMARC多2个字段。原因呢?首先想到的是本馆保留LC分类号、DDC分类号,又增加中图分类号,偶而还没有删除其它分类号。其他原因有:完整的MARC21记录主题字段量比较大,新文献一般都有一个甚至多个ISBN,新增的856字段出现频率比较高,等等。

    在本次统计中,出现频率超过百分之一的有46个字段。由于无法统计每条记录的情况,所以可重复字段的出现次数会超过100%。也就是说,即使是统计值为100%的字段,也不一定出现在每条记录中,因为可能有些记录多次出现该字段。
    原USMARC数据的百分比是指在记录中出现的百分比,而本次的百分比则是出现量的百分比,两者没有可比性。但有些字段是不可重复的,对这些字段二个百分比是一致的。将二次数据作些对比还是蛮有意思的。以下是46个字段的统计数据(001、008、300应当为100%,原记录有错误),右侧为原USMARC统计数据:

字段 百分比 USMARC统计 
650 209.76%  245 100%
020 144.49%  260 100%
093 100.37%  300 100%
001 100.01%  050 100%
260 100.00%  008 100%
245 100.00%  650 95%
300  99.99%  100 72%
008  99.98%  020 67%
040  99.08%  500 67%
005  97.34%  082 63%
504  83.46%  043 50%
050  81.12%  504 49%
700  79.73%  700 43%
082  77.42%  651 25%
100  71.18%  250 18%
010  69.99%  710 18%
003  65.71%  490 18%
440  35.04%  440 17%
500  34.52%  600 14%
043  31.84%  740 9.40%
042  28.63%  830 8.20%
246  25.95%  110 7.30%
250  25.34%  041 7%
651  23.03%  610 6%
856  15.80%  520 4%
534  11.68%  130 3.80%
600  11.30%  505 3.30%
041   8.97%  111 2%
710   8.53%  653 1%
490   8.43%  655 1%
830   8.41%  630 1%
035   6.19%  060 1%
505   5.98%  810 1%
015   4.43%  730 1%
094   4.31%  533 1%
546   4.30%   
240   3.08%   
610   2.76%   
111   2.24%   
655   1.34%   
538   1.18%   
362   1.15%   
711   1.13%   
310   1.05%   
060   1.02%   
730   1.01%   

    同样,由于专著记录占了数据的绝大部分,所以对于专著以外文献类型记录所用字段,这个统计数据没有帮助。但似乎比CNMARC的结果好些,至少连续出版物有310、362入围,其他022、210、222、321、580、780、785等字段则未入围。
    对结果进行对比,新上榜的1619个字段依字段号分别是:001、003、005、010、015、035、040、042、093、094、240、246、310、362、534、538、546、711、856。前八个是对用户而言无关痛痒的代码和编号,似乎很无趣(当然有助于科学管理);接下来两个是中国特色,中图法、科图法必不可少;后四个是文献出版形式变化的结果:538、856主要是针对电子资源,534、546主要用于授权影印书。另外,240反映题名规范程度的提高(旧记录可能较少反映文献原题名),246则是MARC格式变化的结果,711上榜应该是由于现在会议录增多的缘故
    落榜的是:110(根据AACR2的规定,以团体作主要款目标目有很大限制)、130(是否以前重版佚名经典较多?)、520(现在反而不重视文摘了)、533(不知都著录些什么内容?旧书缩微?)、630(与130类似,以前大概研究佚名经典较多)、653(现在更多地使用规范化主题词)、740(大部分被246取代,分析题名常被505$t、700$t和730代替、810(大概原来团体丛编较多)

更新(2005/9/2,以上黑体字部分为本次更新)
    感谢li li婉转地告知上文的上榜、落榜字段的诸多遗漏。
    最后,在更仔细地确认上榜、落榜字段数字时,却发现了一个更大的错误:原来“用得最多的33个USMARC字段”实际上是35个字段。原文为“TOP 33 : The 33 most frequently used fields in LC USMARC data”――居然如此误导,而我竟然也想当然照抄不误?!

 

转贴曹宁对新版《规则》版本项的解释

    见到曹宁先生对本人“质疑新版《中国文献编目规则》版本项”一文的长篇回复,很是感动。谢谢曹宁先生如此耐心细致全面的解释,让大家了解了规则修订的一些内幕!精彩内容,不敢独享。为方便很多象我一样通过RSS阅读而无法得知回复信息者,将曹宁先生原文全文转贴如下:

    编目先生,您好!对新规则的质疑说明您对新规则的关注,而质疑是督促〈规则〉不断更新和完善的基础。客气的话不多说了,对您的质疑谈谈我的看法.

1. 新版规则附录5中对版本的定义确实不够好(同一种文献(出版物)因编辑、传抄、刻版、排版及装订或制作形式的不同而产生的不同本子),太抽象也太笼统。我觉得AACR2(2002年修订版)以及《西文文献著录条例》将版本概念按不同文献类型分别描述的做法是很好的。上述文献对专著版本的定义是:从同一版型产生并由同一机构发行的所有复本。因此当时修订组的倾向性意见是,205字段中著录的版次信息应该针对同一出版者而言(我曾所说的“版本信息应该由出版者提供”也是类似的意思)。在您质疑中提到的两个例子,中图法(四版)和编目规则(二版),都存在出版者变化的情况,如中图法,一版是科技文献出版社出的,二版之后是书目文献出版社(后更名为北京图书馆出版社)出版的。《编目规则》的情况也类似。如果上述版次信息放在版本项不合适,那就要考虑另找的位置,其结果是跟正题名放在一起了,这样做是不是完全合适,或者是不是能成为普遍标准,我不能肯定。

2. 关于版本项的规定信息源首选版权页的问题,实际上也和上述认识有关(因为版权页基本上是属于出版者发言的空间),新版编目规则继承了旧版规则关于版权页的定义:亦称“版本记录页”,似乎从逻辑上更做实了作为版本项首选信息源的理由。当然,这一自作主张确实与ISBD(M)不同,记得在修订过程中曾有意见说,这一改动反映了东方文献的特点,即版权页信息要比西方完整和充分(好象说AACR2对此也有认可?待查)。最新证实的消息是,在今年5月评审通过的GB3792.2《普通图书著录规则》(文标会组织修订的,何时正式发布还不知道)中也将版权页作为版本项的首选信息源了,算是和《编目规则》取得一致吧。

3. 关于FRBR应用的问题,我比较同意您的看法。但文献正题名,对以载体表现为著录对象的书目记录而言是不受控的,因此似乎可以不必过多考虑是否有利于文献集中的问题。文献集中确实需要做,您也谈到“需要通过附加题名检索点或连接方式”实现,我想实现的方式主要是要让题名受控,比如采用编目员补充题名或者统一题名。

4. 王绍平老师提供的例子很有意思,至少说明编目规则解决不了编目中的特殊性问题,也说明任何编目规则都不能取代编目过程中编目人员的理性判断。《冲突法论》这本书我没见过,不便过多发表意见。但从描述的情况看,似乎是版次说明有疏漏,如果确实如此,应该遵循信息源中更丰富和完整的信息,在版本项著录“2版”大概没有问题。
匆忙回复,考虑未必周到,姑妄言之吧。

评论人:曹宁   2005-08-18 16:32:29 

    在自家园地,贴完曹先生回复后意犹未尽,想对曹先生的回复再谈点自己的认识。
    其实问题的症节,主要在于对“版本”的认识差异。如您所说,《西文文献著录条例》(AACR2不在手边,相信《条例》是译自AACR2的)对专著“版本”的定义是:“从同一版型产生的(无论是直接的还是照相或其他方式出版的)并由同一机构发行的所有复本。”《条例》对其它类型文献“版本”定义也均针对“所有复本”。
    由“同一版型”及“复本”用词可知,这里的“版本”是特指“某版本”,并非指所有版本。某个特定的版本,自然是由“同一机构发行的”。用FRBR的术语,此处“版本”是指某个载体表现,并非各种载体表现的集合,更非所有的内容表达。
    从另一个角度,也可以说明《条例》(或AACR2)的版本定义的含义,并非如您所说的“205字段中著录的版次信息应该针对同一出版者而言”。因为在西文出版中,同一作品的不同版本由不同机构出版是常见现象,无论作品是否更换出版社,在依据AACR2著录的记录中,版本项均按在题名页(或封面、其它文前序页)等处出现的版本说明著录
    所以我反而觉得,新版《规则》中独有的“版本”与“版次”定义很好,十分有助于大家对版本与版次的理解:

  • 版本:同一种文献(出版物)因编辑、传抄、刻版、排版及装订或制作形式的不同而产生的不同本子。
  • 版次:图书及其他文献排版次第的说明。凡第一次排版称“第一版”或“初版”(或其他表示法)。凡内容经过修改、增补后重新排版称“第二版”或“再版”(或其他表示法),以下类推。

    中国出版文献的确有特殊现象,就是出版社给出的版本信息(与印次相连的部分)基本上只针对本社的情况,所以如第2版更换出版社,在出版社给出的信息就是“第1版”。对此,如按照您第4点“遵循信息源中更丰富和完整的信息”的说法,取出现在题名页或其它规定信息源中的“第2版”作版本项,应当是更好的选择。

 

概略分类体系BSO

看来XF君对分类主题情有独钟,上个月问希尔斯主题词表,这回又问BSO。遗憾的是,我除了记得Broad System of Ordering译作“概略分类体系”、并且老师曾经很是推崇外,其余全还给老师了。网上找些资料,虽然看着也很惭愧,就算交差了吧?

首先,《中国大百科全书》中有林德海、马张华的词条《概略分类体系》,对BSO有全面介绍。基本情况如下:

国际文献联合会主持编制的一部综合性的分面组配式分类法。又译《概略排序体系》。主要用于使用不同检索语言的情报系统和情报机构之间的连结即检索语言间的转换?o也可直接用于对文献的分类和识别。1973年开始编制?o原名《标准参照代码》(SRC)?o1974年改为现名?o并成立了由英国E.J.科茨?p法国G.A.洛伊德和捷克的D. 西曼德勒三人组成的新的编辑组。1975年3月?o在SRC大纲基础上完成初搞?o1976年3月完成修订第一稿(配有标记符号)?o1977年8月完成修订第二稿(附字顺索引)?o经试用修改后于1978年3月出版。1979年出版《BSO手册》。1986年发行BSO的机读版。
《概略分类体系》是一种面向学科的分类体系。由主表?p通用分面表 (包括情报源类型?p时间?p地区等 3个辅助复分表)和字顺索引组成。主表设有1个前置类(088)和9个主题领域 (100~970)?o共列出253个主要主题或学科(相当于主要类目)?o总共4000个类目。

中文维基百科的BSO词条名称为“国际文献联合会分类体系”,此说虽不可信,但其中文二级大类还是可以参考的。

BSO曾是联合国教科文组织(UNESCO)世界科学技术情报系统(UNISIST,1972- )计划的产物,背景很是显赫。但主持编制BSO的国际文献联合会/国际文献信息联合会(FID:International Federation for Information and Documentation)在新千年里已不知所终。2000年,BSO由英国老牌的伦敦大学学院的图书馆、档案与信息研究学院(SLAIS: School of Library, Archive and Information Studies, University College London)接手
现在BSO主页“BSO: BROAD SYSTEM OF ORDERING”有一些内容,包括完整的分类表和手册的大部分文本。可惜手册出版于1979年,无法从中了解BSO是否如期望的那样,曾经作为“检索语言间的转换”,甚至“直接用于对文献的分类和识别”。
2001年,SLAIS申请到一个项目,从事“人文科学知识结构管理中的分面分析理论”研究,BSO成为其分面分析的初始知识结构(Initial Knowledge Structure)。该项目2002-2003年间进行,大部分信息可以在项目主页找到。

另外:在这个网址,有一个比较丰富的BSO书目。不过资料最新的也在1980年代。一般而言,资料上网基本上是1990年代以后的事,所以看来是其后缺少相关研究与应用,不应该是这个书目收集的资料太旧。