用得最多的46个MARC21字段

    li li说“用得最多的33个USMARC字段”数据太旧,希望我统计一下新一点的MARC记录。我按照“用得最多的39个CNMARC字段”的方式,统计了我馆部分新的西文数据。记录共13101条,排除MARC21中没有的字段(但保留我国定义的093-098)后,共使用了108个字段,其中有9个字段只出现一次。出现的字段数与1997年前400万条USMARC记录的统计结果基本相同。
    字段计数总共为263593,平均每条记录使用20.1个字段。比CNMARC多了近1个字段,比前述USMARC多2个字段。原因呢?首先想到的是本馆保留LC分类号、DDC分类号,又增加中图分类号,偶而还没有删除其它分类号。其他原因有:完整的MARC21记录主题字段量比较大,新文献一般都有一个甚至多个ISBN,新增的856字段出现频率比较高,等等。

    在本次统计中,出现频率超过百分之一的有46个字段。由于无法统计每条记录的情况,所以可重复字段的出现次数会超过100%。也就是说,即使是统计值为100%的字段,也不一定出现在每条记录中,因为可能有些记录多次出现该字段。
    原USMARC数据的百分比是指在记录中出现的百分比,而本次的百分比则是出现量的百分比,两者没有可比性。但有些字段是不可重复的,对这些字段二个百分比是一致的。将二次数据作些对比还是蛮有意思的。以下是46个字段的统计数据(001、008、300应当为100%,原记录有错误),右侧为原USMARC统计数据:

字段 百分比 USMARC统计 
650 209.76%  245 100%
020 144.49%  260 100%
093 100.37%  300 100%
001 100.01%  050 100%
260 100.00%  008 100%
245 100.00%  650 95%
300  99.99%  100 72%
008  99.98%  020 67%
040  99.08%  500 67%
005  97.34%  082 63%
504  83.46%  043 50%
050  81.12%  504 49%
700  79.73%  700 43%
082  77.42%  651 25%
100  71.18%  250 18%
010  69.99%  710 18%
003  65.71%  490 18%
440  35.04%  440 17%
500  34.52%  600 14%
043  31.84%  740 9.40%
042  28.63%  830 8.20%
246  25.95%  110 7.30%
250  25.34%  041 7%
651  23.03%  610 6%
856  15.80%  520 4%
534  11.68%  130 3.80%
600  11.30%  505 3.30%
041   8.97%  111 2%
710   8.53%  653 1%
490   8.43%  655 1%
830   8.41%  630 1%
035   6.19%  060 1%
505   5.98%  810 1%
015   4.43%  730 1%
094   4.31%  533 1%
546   4.30%   
240   3.08%   
610   2.76%   
111   2.24%   
655   1.34%   
538   1.18%   
362   1.15%   
711   1.13%   
310   1.05%   
060   1.02%   
730   1.01%   

    同样,由于专著记录占了数据的绝大部分,所以对于专著以外文献类型记录所用字段,这个统计数据没有帮助。但似乎比CNMARC的结果好些,至少连续出版物有310、362入围,其他022、210、222、321、580、780、785等字段则未入围。
    对结果进行对比,新上榜的1619个字段依字段号分别是:001、003、005、010、015、035、040、042、093、094、240、246、310、362、534、538、546、711、856。前八个是对用户而言无关痛痒的代码和编号,似乎很无趣(当然有助于科学管理);接下来两个是中国特色,中图法、科图法必不可少;后四个是文献出版形式变化的结果:538、856主要是针对电子资源,534、546主要用于授权影印书。另外,240反映题名规范程度的提高(旧记录可能较少反映文献原题名),246则是MARC格式变化的结果,711上榜应该是由于现在会议录增多的缘故
    落榜的是:110(根据AACR2的规定,以团体作主要款目标目有很大限制)、130(是否以前重版佚名经典较多?)、520(现在反而不重视文摘了)、533(不知都著录些什么内容?旧书缩微?)、630(与130类似,以前大概研究佚名经典较多)、653(现在更多地使用规范化主题词)、740(大部分被246取代,分析题名常被505$t、700$t和730代替、810(大概原来团体丛编较多)

更新(2005/9/2,以上黑体字部分为本次更新)
    感谢li li婉转地告知上文的上榜、落榜字段的诸多遗漏。
    最后,在更仔细地确认上榜、落榜字段数字时,却发现了一个更大的错误:原来“用得最多的33个USMARC字段”实际上是35个字段。原文为“TOP 33 : The 33 most frequently used fields in LC USMARC data”――居然如此误导,而我竟然也想当然照抄不误?!

 

曹宁“试论FRBR在中国文献编目规则和机读格式中的应用”笔记

    编目条例制订者煞费苦心,但并没有把其良苦用心告知使用者,使用者既不能知其所以然,有时就不免觉得规则莫名其妙。作为新版《中国文献编目规则》的副主编,作者“试论FRBR在中国文献编目规则和机读格式中的应用”一文多少揭示了内中的一些玄机,看得比较过瘾。

    本文第一部分“FRBR的概念模型”为扫盲。

    揭示玄机的是第二部分“从FRBR角度分析《中国文献编目规则》修订过程中的几个难点问题”。

(1)对文献获得方式的界定
    “按照FRBR的解释,获得方式是载体表现的特殊属性,除此之外它不属于其他任何一个层面上的实体”。因此,“获得方式通常是指由文献提供者确定的具有普遍意义的获取方式,而不应该是由文献所有者确定的特殊性的获取方式。”
    或者说,获得方式不属于Item(作者译为“对象文献”)层面。

(2)古籍著录中复本附注的应用
    “将古籍著录的对象固定在以版本版刻为主要特征的文献载体表现的层面上”,印次、复本属Item,用附注加以说明。如此古籍著录规则“与《规则》总则以及ISBD(A)取得了一致”。

(3)版本信息的区分及著录方式的选择
    “那些由文献出版者赋予的版本信息(对中文普通图书而言,一般集中出现在版权页)大多可以著录在版本项,而那些由文献创建者或实现者赋予的版本信息(对中文普通图书而言,一般集中出现在书名页)则要慎重考虑著录在何处。”前者为内容表达,后者为载体表现?
    文中很谨慎的说出现在书名页的版本信息“要慎重考虑著录在何处”,而没有直接说“大多可以著录在题名与责任者项”。因为新版《中国文献编目规则》中的如下实例(第37页例6)无疑是有很大争议的:

中国图书馆分类法(第四版) / 中国图书馆分类法编辑委员会编

《中图法》第四版由于“第四版”出现在题名页,版权页题“第1版”,故新版《规则》认为其题名是《中国图书馆分类法(第四版)》,而非一般认为的题名是《中国图书馆分类法》、版本为第4版。

(4)标目法中个人和团体名称检索点选取原则的确定
    “文献标目的主体对象明确限定在著作和内容表达层面,同时也为揭示载体表现和对象文献层面的特例提供了可能”。

    第三部分“FRBR概念模型在编目规则和机读格式中实现的可能方式”是作者的一些设想。主要是以FRBR思想处理统一题名。以莎士比亚的《哈姆雷特》为例,举了常见的FRBR结构(w-e-m),还有:

书目记录(载体表现层)。除500统一题名形式外,与普通书目记录无异。
规范记录(内容表达层)。有点奇怪,规范记录做到了译者这一层。
规范记录(著作层)。除一般题名规范记录的内容外,还包括分类和主题。

    作者说是受LC芭芭拉女士“AACR3:资源描述和检索”一文的直接启发。芭芭拉此文我尚未看过,看过她在5月FRBR研讨会上的PPT“FRBR与编目规则:对IFLA的原则声明与AACR/RDA的影响”,其中有规范、书目、馆藏三层与FRBR实体间的对应关系图示。
    如作者所说,“FRBR研究的第二个目的是为了倡导文献编目的简化,提高编目效率,节约编目成本”。所举著作层的规范记录,包括了原本需要在每条书目记录中重复的分类与主题,可以说达到了这一目的。但内容表达层规范记录做到译者这一层次,是否做得过多?对照LC,对Hamlet也只做了少数语种(而非全部语种)的规范记录,而没有具体到译者。难道FRBR应用的结果,就是要我们多做N条规范记录?
    不过还有,“如果一种著作只有惟一的载体表现,则各层实体的全部信息都反映在载体表现层的书目记录中,而不需要制作著作/内容表达层的规范记录”。原本题名规范记录即遵循此准则。那么如果某译本(内容表达)只有惟一的载体表现,是不是也无需做内容表达层的规范记录?

原文出处:中国图书馆学会2005年年会征文优秀论文集
中国图书馆学会编《以人为本 服务创新》(北京图书馆出版社2005,317-324页)

原文参考文献之一:
Barbara Tillett. AACR3: Resource Description and Access.
http://www.collectionscanada.ca/jsc/docs/aacr3pptjan2005.pdf

芭芭拉的另一个PPT:
Barbara Tillett. FRBR and Cataloguing Rules: Impact on IFLA’s Statement of Principles and AACR/RDA. (
PPT: 862 KB/49 slides)

 

集思广益的规则修订方式――从MARC 21修订想到的

    近期MARC邮件组最热烈的话题之一就是2005年的提案(Proposal 2005-X)。引起我兴趣的不是提案的内容,而是MARC 21的修订程序。
   
象我这样完全的局外人,也能及时了解MARC 21修订情况,是因为有MARC论坛(邮件组),还有与修订有关的专门网页MARC Development,上面集中了所有相关信息。修订过程是透明化的,既有邮件组可以发表意见,还有专项提案、讨论,感兴趣者都可参与。规则修改结果在正式公布实施前,大家就已经了解。
   
负责MARC 21修订的委员会MARBI的工作目标之一是建立标准的持续评价机制。它对提案有规范化的程序,提案内容除包括修改的MARC格式类型(书目、规范、馆藏、分类、团体信息)、涉及的数据元素(字段、子字段、定长字段字符位等)、提议简述等信息外,还要求对建议一旦实施将产生的潜在影响,回答十二个专门问题,作为提案附件一并提交。这就要求提议机构对所提出的建议深思熟虑,并有一些调查研究,而非头脑灵光一现的结果。
   
这种集思广益修改标准的方式,似乎是一种国际通行形式。如IFLAISBD系列修订,在发布正式稿之前,先以修订稿形式向全世界征求意见。又如DCMI也常对都柏林核心元数据的有关提议公开征求意见。

    最近欣喜地看到国内在规则修订方面的变化。CALIS联合编目中心开始在一定范围内征集“业务规则修改、业务工作存在的问题”的提案(见厦门大学图书馆编目部“关于CALIS专家组/质量控制组集训班提案的说明”),而《中图法》编委会网站上也挂上了让人期待的“中图法BBS站”。

    很多东西到中国都会水土不服,所谓橘逾淮则为枳。那天看到“中图法BBS站”时,曾期望它早日开通,大家可畅所欲言,互相切磋探讨,求同存异,开国内图书馆界专门领域论坛之先河。可是看到三天后E线上那个同样期待它开通贴子用所谓“肉食者”的措辞后,我不禁为这个尚未开通的BBS担忧。如果把所有可以发表言论的地方,都变成了可以随意谩骂的场所,那么只能说,MZ是我们消受不起的盛宴。