若有所思 – 第 286 页

ISO 25577: 2709格式的XML兄弟即将问世

ISO 2709用于MARC数据的交换已有三十多年历史。虽经多次修订，但孕育于数据顺序读取的磁带环境下的2709格式，对网络环境明显不适应。有鉴于此，美国国会图书馆在几年前开发了MARCXML，即MARC 21 XML Schema，以XML格式表示MARC记录。现在，以MARCXML为基础，一种与2709格式兼容的新的MARC数据交换格式正在研制的最后阶段，预计将于2006年正式成为ISO标准，它目前的名称是：
ISO/CD 25577 Information and documentation ?C MarcXchange

该标准由丹麦在2004年发起，丹麦国家图书馆规范部的Leif Andresen和丹麦图书馆中心的Tommy Schomacker是开发该标准委员会的共同主席。丹麦国家图书馆规范部维护着MarcXchange的主页，称MarcXchange是对ISO 2709格式的补充。网站上有相关资料，英语为主。

美国国会图书馆网络开发与MARC标准办公室主任Sally H. McCallum在MARC邮件组中，对MarcXchange、2709格式及MARCXML之间的异同，作了很好的说明。大致是这样的（非完全翻译，带本人理解）：

MARCXML依照图书馆通用的MARC格式，规定字段指示符为2位、子字段标识符为1位（不含$），但修订后的2709格式对字段指示符与子字段标识符的规定均为最高9位。MarcXchange修订MARCXML，与2709格式兼容，但并不因此与MARCXML冲突。
与ISO 2709不同的是：
1. 对<记录>元素附加“格式”属性，标识机读目录的执行格式，如MARC21、Unimarc、CNMARC等。（无需看记录字段，就可以知道记录的格式了；避免人工判断。ISO2709修订时为何未考虑这一点？头标中空位还有着呢。）
2. 对<记录>元素附加“类型”属性，标识记录的种类。如MARC21格式有书目、规范、馆藏、分类与社团五种类型。MARCXML已经附加了此属性。（无需分析记录头标，就可以知道记录的类型了；避免人工判断。对ISO2709的疑问同上。）
3. 00X字段除可置于<控制字段>元素外，也可作为<数据字段>元素。

可以预计，今后图书馆计算机集成系统及编目软件不但要支持2709格式的导入、导出，而且还要支持25577格式。或许出现直接使用25577格式的书目数据库也未可知。

参见：

主页：MarcXchange (http://www.bs.dk/marcxchange/)

相关报道：ISO Standard for MarcXchange In Development. NISO Newsline (August 2005)

MARC邮件组中的有关讨论：
(1) Karen Coyle. ISO standard for MARC in XML. MARC Archives — August 2005 (#3)
(2)William E. Moen. Re: ISO standard for MARC in XML. MARC Archives — August 2005 (#4)
(3)Sally H. McCallum. MarcXchange. MARC Archives — August 2005 (#8)

张沙丽《著录规范化与全球信息资源共享》笔记

美国北卡罗莱纳大学绿堡校区图书馆副馆长、ALA理事张沙丽（Sha Li Zhang）博士的中图学会2005年会文章，原文标题：Authority Control and Its Implications in Global Information Resources Sharing。应该与她在分会场中的报告内容相同吧？文章引用的规范研究资料丰富，关于规范数据处理外包的详细信息对我尤其新鲜。如果有心，又有很多东西可以找来看了。下面是笔记，方括号中为自己想法。

Evolving Authority Control
图书馆界对规范控制的关注在1980年代后才逐渐升温。根据Auld的统计，1900-1982年间仅有规范控制文献46+7篇。而作者最近统计OCLC FirstSearch的“图书馆文献”库，1982-2005年间出版的含“authority control”的达540条。[不知道占文献总量的比例有无变化？]

Authority Control and Integrated Library System (ILS)
1980年代后期到1990年代早期，许多图书馆转向使用集成系统ILS进行联机编目。许多ILS提供规范功能，并且可以在书目记录检索点与规范档之间建立链接。在联机环境下，如果规范记录中的一个检索点发生变化，通过ILS的标目全域更新功能，可以将书目记录中所有相应的标目一同更改。许多图书馆的系统通过夜间备份（冷备份）完成实际更改，有的ILS则可即时完成。[国内的系统中不知有哪家已经能够实现规范控制？]
Tillett在2004年总结的使用ILS进行规范工作的优点：

易于维护标目与参照
全域更新能力，依据规范记录检查书目记录的标目
提供参照引导用户到规范标目
标目形式有效性验证

Vendor-Contracted Authority Work
Benaud & Bordeianu在1998年发现，55%被调查馆外包规范控制，另有14%计划将来外包。Velluccid 2004年总结：普遍外包编目、尤其是规范控制处理，已经成为美国学术与公共图书馆的共同做法。[目前的编目外包数据是多少？]
美国的主要规范控制服务商：

Library Technology, Inc. (LTI) (http://www.librarytech.com)
Marcive, Inc. (http://www.marcive.com)
OCLC/WLN (http://www.wln.com) [现名：1999年合并，现名OCLC Western]

某些系统如Innovative的Millennium“自动规范处理系统”，在新规范记录载入本地ILS时会自动更新书目记录标目。有些如LTI的二级“规范更新处理”，由服务商根据规范记录变化更新书目记录，并将更新后的书目记录载入本地ILS。
Zhu在2004年所列规范合约应当包括的一些因素：

将现有书目数据库提升到当前规范标准，并建立一个新的规范库
将新增书目记录提升到当前规范标准
保持新创建规范数据库随外部规范结构更新，同时保持现有书目记录符合当前规范标准

作者的实施服务商规范过程不完全列表[包括对服务商的要求及本馆的工作安排]：
1、确定合约商。如比较产品（去重处理、数据库清理、更改标识符、删除括号等）、价格、提交方法、更新频率（如新书目记录每周服务、现在书目记录每季更新、主索引年度更新等），更重要的是合约商与本地ILS协调的能力。
2、填写文档。数据交换格式（如FTP或磁带上载），规范档分布（一个或多个文档），预订合约商报告与提醒服务。
3、根据编目费用计算合约商规范服务费用
4、明确责任，谁负责由本地ILS抽取书目记录发送给合约商处理？谁负责上载合约商的文档到本地ILS？谁负责手工检查合约商不能提供规范标目的那些标目？
5、建立与合约商的沟通机制，使问题得到及时处理。
6、设定适合本地ILS的批导入文档。如Innovative的Millennium处理规范记录用两个独立的规范文档：名称和主题；而Endeavor的Voyager则把所有规范记录放在一个文档。
7、解决合约商无法以机器批量处理的问题标目。如LC的音乐家Wang Bing与Wichita州立大学的工程学Wang Bing。这问题可通过实施Unicode，区别汉语字符。[在汉语不同的情况下，可能不认为需要附加信息区分，但不曾料想拼音可能相同。是不是因此要求都加日期区分？拼音+日期仍相同？只有在拼音索引档中才能得知此种情况。]

Search Results from Library Cataloging and from Search Engines
我们是否能够承受对网络资源使用规范检索点？馆员转向元数据作为解决方案。[计算机界用semantic web和ontology？]

Metadata and Authority Control
    都柏林核心Dublin Core：ANSI/NISO Z39.85-2001 online access。
    OCLC领导开发“主题术语分面应用”（FAST：Faceted Application of Subject Terminology），源于LCSH，但简化其句法。计划的最初阶段包括六个面：论题、地理、形式、时期、个人及团体名称。用于这些面的主题词汇取自LCSH，并映射到MARC21的编目字段与DC元数据。
——————————————————————-
FAST面          DC修饰词      MARC21书目字段      MARC21规范字段
——————————————————————-
论题            Subject            650                  150
年代            Period             648                  148
形式            Type               655                  155
地理        Coverage.spatial       651                  151
个人名称    Creator/namePersonal
            Contributor/…        600                  100
团体名称    Creator/namePersonal
            Contributor/…        610                  110
——————————————————————-

Authority Control Projects among International Library Communities

?Barbara Tillett领导的IFLA的UBS与UBCIM工作组项目[VIAF？]
?NACO: the Name Authority Cooperative。美国与世界最有影响团体，成员包括美国46个州的机构及欧洲、非洲、大洋洲、亚洲和拉丁美洲43个机构。LC创建的规范记录是350万多条，而成员馆合作也发展了200万多条。
?HKCAN: Hong Kong Chinese Authority for Names
?MACS: Multilingual Access to Subjects。创建于1997年，由欧洲国家图书馆会议CENL提出，为解决欧洲数据库的多语种主题访问。瑞士国家图书馆SNL、法国国家图书馆BnF、英国图书馆BL、德国图书馆DDB参与，以德语、法语、英语链接主题标目。
?LEAF: Linking and Exploring Authority Files。2001年由欧盟资助，开发一个模型结构，收集、收割、链接与提供对现存的本地或全国性名称规范信息的访问。以存档目的链接规范档，使用Z39.50及OAI协议。参与机构包括欧洲的图书馆、LC、OCLC及弗吉尼亚大学。

另：文中关于规范控制的一些总结：

Avram在1984年所列规范控制的核心功能：
1、区别名称[规范标目]
2、显示关系[参照与连接]
3、为决定提供证明[附注与来源]

Burger在1985年总结的规范记录作用：
?记录每一检索点的标准化形式
?确保集中具有相同检索点的所有记录
?能够标准化目录记录
?记载选定检索点的决定及来源
?记录不同于选定为规范形式的检索点的所有其他检索点形式

Gorman在2004年指出的规范记录必须包含的元素：
?标准化的检索点
?所有作“见”参照的形式
?连接到所有链接的规范记录（“参见”参照）
?标准化检索点的来源
?标准化形式的先前形式与其他用法一览

致谢：
感谢li li扫描了张沙丽的文章发给我，十几页，很费了一番功夫。扫描文件又很大，电邮也发了好几封。

用得最多的46个MARC21字段

li li说“用得最多的33个USMARC字段”数据太旧，希望我统计一下新一点的MARC记录。我按照“用得最多的39个CNMARC字段”的方式，统计了我馆部分新的西文数据。记录共13101条，排除MARC21中没有的字段（但保留我国定义的093-098）后，共使用了108个字段，其中有9个字段只出现一次。出现的字段数与1997年前400万条USMARC记录的统计结果基本相同。
字段计数总共为263593，平均每条记录使用20.1个字段。比CNMARC多了近1个字段，比前述USMARC多2个字段。原因呢？首先想到的是本馆保留LC分类号、DDC分类号，又增加中图分类号，偶而还没有删除其它分类号。其他原因有：完整的MARC21记录主题字段量比较大，新文献一般都有一个甚至多个ISBN，新增的856字段出现频率比较高，等等。

在本次统计中，出现频率超过百分之一的有46个字段。由于无法统计每条记录的情况，所以可重复字段的出现次数会超过100%。也就是说，即使是统计值为100%的字段，也不一定出现在每条记录中，因为可能有些记录多次出现该字段。
原USMARC数据的百分比是指在记录中出现的百分比，而本次的百分比则是出现量的百分比，两者没有可比性。但有些字段是不可重复的，对这些字段二个百分比是一致的。将二次数据作些对比还是蛮有意思的。以下是46个字段的统计数据（001、008、300应当为100%，原记录有错误），右侧为原USMARC统计数据：

字段百分比 USMARC统计
650 209.76%  245 100%
020 144.49%  260 100%
093 100.37%  300 100%
001 100.01%  050 100%
260 100.00%  008 100%
245 100.00%  650 95%
300 99.99%  100 72%
008 99.98%  020 67%
040 99.08%  500 67%
005 97.34%  082 63%
504 83.46%  043 50%
050 81.12%  504 49%
700 79.73%  700 43%
082 77.42%  651 25%
100 71.18%  250 18%
010 69.99%  710 18%
003 65.71%  490 18%
440 35.04%  440 17%
500 34.52%  600 14%
043 31.84%  740 9.40%
042 28.63%  830 8.20%
246 25.95%  110 7.30%
250 25.34%  041 7%
651 23.03%  610 6%
856 15.80%  520 4%
534 11.68%  130 3.80%
600 11.30%  505 3.30%
041   8.97%  111 2%
710   8.53%  653 1%
490   8.43%  655 1%
830   8.41%  630 1%
035   6.19%  060 1%
505   5.98%  810 1%
015   4.43%  730 1%
094   4.31%  533 1%
546   4.30%
240   3.08%
610   2.76%
111   2.24%
655   1.34%
538   1.18%
362   1.15%
711   1.13%
310   1.05%
060   1.02%
730   1.01%

    同样，由于专著记录占了数据的绝大部分，所以对于专著以外文献类型记录所用字段，这个统计数据没有帮助。但似乎比CNMARC的结果好些，至少连续出版物有310、362入围，其他022、210、222、321、580、780、785等字段则未入围。
    对结果进行对比，新上榜的1619个字段依字段号分别是：001、003、005、010、015、035、040、042、093、094、240、246、310、362、534、538、546、711、856。前八个是对用户而言无关痛痒的代码和编号，似乎很无趣（当然有助于科学管理）；接下来两个是中国特色，中图法、科图法必不可少；后四个是文献出版形式变化的结果：538、856主要是针对电子资源，534、546主要用于授权影印书。另外，240反映题名规范程度的提高（旧记录可能较少反映文献原题名），246则是MARC格式变化的结果，711上榜应该是由于现在会议录增多的缘故。
    落榜的是：110（根据AACR2的规定，以团体作主要款目标目有很大限制）、130（是否以前重版佚名经典较多？）、520（现在反而不重视文摘了）、533（不知都著录些什么内容？旧书缩微？）、630（与130类似，以前大概研究佚名经典较多）、653（现在更多地使用规范化主题词）、740（大部分被246取代，分析题名常被505$t、700$t和730代替）、810（大概原来团体丛编较多）。

更新（2005/9/2，以上黑体字部分为本次更新）
感谢li li婉转地告知上文的上榜、落榜字段的诸多遗漏。
最后，在更仔细地确认上榜、落榜字段数字时，却发现了一个更大的错误：原来“用得最多的33个USMARC字段”实际上是35个字段。原文为“TOP 33 : The 33 most frequently used fields in LC USMARC data”――居然如此误导，而我竟然也想当然照抄不误？！