网上规范资料:规则、机读格式及规范库

《规范记录与参照指南》(2001年第2版)
Guidelines for Authority Records and References (2nd ed., 2001)
http://www.ifla.org/VII/s13/garr/garr.pdf(PDF文件,294K)
IFLA的GARR,是1984年出版的“规范与参照款目指南”Guidelines for Authority and Reference Entries (GARE)的修订版。

《个人名称》(1996)
Names of Persons (1996)
http://www.ifla.org/VII/s13/pubs/NamesOfPersons_1996.pdf (PDF文件,11M)

《团体名称标目结构》(最终报告,2000)
Structures of Corporate Name Headings (Final Report, November 2000)
http://www.ifla.org/VII/s13/scatn/final2000.htm

《UNIMARC规范格式》(1991版)
UNIMARC / Authorities 1991
http://www.ifla.org/VI/3/p1996-1/uniafull.htm

《UNIMARC手册-规范格式》(2001简版)
UNIMARC Manual-Authorities Format 2001 (Concise version)
http://www.ifla.org/VI/3/p2001/guideindex.htm
第2版,修订扩大版

UNIMARC Manual-Authorities Format 2001 (Concise version)
http://web2.kwangju.ac.kr/~jahookim/myhome/UNIMARC-9.htm
开始在IFLA网站上没找到2001版规范格式,倒在这个韩国大学网站上找到了。

中国机读权威记录格式》(台湾,1994年)
http://datas.ncl.edu.tw/catweb/2-1-7.htm
唯一查到的中文规范资料,引用标准中只有GARE和UNIMARC手册(1987版),没有UNIMARC规范。不知道现在有没有根据UNIMARC规范2001版的更新版。

《MARC 21规范数据格式》(简版)
MARC 21 Concise Format for Authority Data (2004 Concise ed, 2000 ed., update no. 5)
http://www.loc.gov/marc/authority/ecadhome.html
美国国会图书馆MARC 21标准网站,目前是2004版(2000版第5次更新本)

美国国会图书馆规范库
Library of Congress Authorities
http://authorities.loc.gov
含主题、名称、题名和名称/题名规范。

    不是我崇洋,实在是查了半天,查到的网上工具性的中文规范资料少得可怜。我也希望网上有国家图书馆的《中国机读规范格式》,却只查到了台湾的《中国机读权威记录格式》。好歹是中文版,都是依据UNIMARC及GARR前身GARE制订的,差别大不到哪里去。
    我更希望国家图书馆的“中国名称规范数据库”、“中国主题规范数据库”能够象LC规范库那样可以在网上自由使用。只是想到连深受西方熏陶的港人,都守着HKCAN不肯开放,便断了此念。

另:还有一个与《书目记录的功能需求》(FRBR)相应的重要规范文件值得注意:
《规范记录的功能需求与编号》
Functional Requirements And Numbering of Authority Records (FRANAR)
    尽管名称如雷灌耳,受到不少关注,这个神秘文件似乎至今仍未完成。其工作小组于1999年成立以来,正式文件只见到一个2000年在曼谷召开会议的备忘录

 

用得最多的39个CNMARC字段

    忙中偷闲,抽取本馆2004年的部分CNMARC数据,作了一个类似的字段使用频率统计。总共18418条记录,除本地使用字段外,共使用了90个字段。其中有11个字段只出现了一次,除非书资料外,相信有几个只出现一次的字段为著录错误所致。
    字段计数总共为355680,平均每条记录使用19.3个字段。平均每记录使用字段比前述USMARC统计的18个字段为多也是理所当然的,因为USMARC一个必备的008字段,在CNMARC就至少要用上必备100、101、102,对于数据量最大的专著,还要加上105、106。如此说来,似乎CNMARC记录的总体信息量要少于USMARC记录?可能相对来说,由于后组的原因,CNMARC主题字段数量略少。
    在本次统计中,出现频率超过百分之一的字段为39个,出现频率超过千分之一的有56个字段,出现频率超过万分之一(1次以上)的有79个字段。由于无法统计每条记录的情况,所以可重复字段的出现次数会超过100%。也就是说,即使是统计值为100%的字段,也不一定出现在每条记录中,因为可能有些记录出现多次该字段。以下是39个字段及其统计数据(某些字段应当为100%,如001、100、101、102、200、215,原记录有错误):

701 121.65%
606 118.82%
801 113.93%
690 113.36%
010 105.77%
001 100.01%
210 100.00%
101  99.99%
200  99.99%
102  99.99%
215  99.99%
100  99.98%
106  99.93%
105  99.02%
005  89.14%
410  59.96%
225  54.59%
320  50.96%
702  30.84%
330  27.49%
517  26.81%
510  25.74%
314  12.33%
300  11.70%
312   8.85%
711   7.76%
600   7.18%
306   7.03%
205   5.79%
333   4.75%
305   3.53%
092   2.28%
304   1.87%
712   1.86%
601   1.84%
327   1.79%
605   1.58%
311   1.48%
607   1.05%

    由于专著记录占了数据的绝大部分,所以对于专著以外文献类型记录所用字段,这个统计数据显然是没有帮助的。如连续出版物的110、207、326、310、011字段均未入围,单独统计时,前三个字段的出现率为100%,后二个字段分别是8%和4%。
    这个统计的样本不够大,与前述USMARC统计的400多万没有可比性。但由于采用的是较新的记录,或许更能反映目前CNMARC的使用情况。不过,CNMARC目前应用上有一些分歧,采用不同标准的图书馆,统计结果也会有一定的影响,比如本馆不采用411、461、462字段之类,导致410字段出现频率较高。

 

用得最多的33个USMARC字段

    这是早些年的一个USMARC字段出现频率统计数据
    “allegro-c图书馆软件”(allegro-C Software für Bibliotheken)对1997年前共400多万条USMARC记录进行了统计,平均每条记录用18个字段。出现频率超过1%的共有33个字段,据称另外还有60多个字段出现过。两者合计,出现过的大概就100个左右,而据统计USMARC字段当时为330个(?),现在是200来个,看来还有削减的余地。
    根据这个统计数据,现在学MARC 21,重点掌握以下33个字段,可算抓住了要害。或许结果并不意外,目前编目系统设置的专著原编模板,大体也就是这些字段,只是以直观的数据予以表示。
    下表依出现频率为序,四栏数据分别是出现率、可靠性(Z,可用于确认书目记录)、字段和都柏林核心元素。

出现率 字段 DC元素
100%  Z 245  TITLE
      Z 260  PUBLISHER
      Z 300  ???
        050  SUBJECT
      Z 008  LANGUAGE
             TYPE
?95%    650  SUBJECT
 72%  Z 100  CREATOR
 67%  Z 020  IDENTIFIER
        500  DESCRIPTION
 63%    082  SUBJECT
 50%    043  COVERAGE
 49%    504  DESCRIPTION
 43%  Z 700  CONTRIBUTOR
 25%    651  COVERAGE
 18%  Z 250  ???
        710  CONTRIBUTOR
        490  RELATION
 17%    440  RELATION
 14%    600  SUBJECT
  9.4%  740  TITLE
  8.2%  830  RELATION
  7.3%  110  CREATOR
( 7%    041  =008/35-37 )LANGUAGE
  6%    610  SUBJECT
  4%    520  DESCRIPTION
  3.8%  130  TITLE
  3.3%  505  DESCRIPTION
  2%  Z 111  ???
  1%    653  SUBJECT
        655  SUBJECT
        630  SUBJECT
        060  SUBJECT
        810  RELATION
        730  TITLE
        533  RELATION?

    上述统计数据中包含大量旧记录,与目前所用MARC字段情况显然有一定的出入。比如740比例高达9.4%,而246却没有上榜,就是MARC格式一体化之前大量记录留下的痕迹。再比如856字段,1997年该字段才刚出现,据称总共只统计到56次,但如果套录近些年的LC记录,出现频率还是相当高的。

    上述统计数据原文后有对DC的看法,可以参见文首的链接。如果和我一样看不懂德语,可以请Free2Professional Translation来翻译:http://ets.freetranslation.com/
    顺便再给自己前面的文章做个广告:
多语种在线翻译网站

重要更新(2005/9/2)
    原题“TOP 33: The 33 most frequently used fields in LC USMARC data”,实际应为35个字段。