MARC – 第 47 页 – 编目精灵III

MARC、MARC，为什么不死？

最近正想把放在TPI学位论文库中的元数据导出，转入本馆的书目系统。要转入图书馆的书目系统，必须是MARC格式，而TPI只有导入MARC，没有导出MARC，所以必须自行编制处理程序，把原来的元数据转成MARC格式，心里很是不爽。

正巧Keven在咒它，愿MARC“永垂不朽”。或许“MARC必须去死 (MARC must die)”，可它竟然如此不知趣，不肯自行退出历史舞台，需要别人来将它杀死 (Murdering MARC)？

讲到MARC，必得话分两头。一头是MARC记录格式，也就是标记系统，如200、245这样的字段，$a、$3这样的子字段；另一头是MARC交换格式，也就是所谓的ISO 2709格式。
以TPI元数据转换为例，要做两方面的处理。首先是一头，先做一个对照表，把需要的TPI元数据对应到MARC的字段、子字段。为生成完整的MARC记录，还必须添加一些TPI中没有的元数据。其次是另一头，让转出的元数据经处理后，形成2709格式。

Keven说，“抛弃MARC最大的阻力应该来自图书馆所拥有的书目数据，以及业已装机的、成千上万的图书馆自动化系统。”在我看来应该不是。理由是：

一、图书馆所拥有的书目数据多半是2709格式的，这种格式只要编制合适的程序，可以很方便地批量转换成其它形式（反之倒未必）。
二、目前没有图书馆自动化系统(ILS)会以2709格式存储书目数据供检索。2709格式只是一个交换数据的标准格式，系统将MARC数据导入后，多半以某种数据库形式存储数据。
三、为提供检索，ILS需要在MARC数据导入时对各字段、子字段做索引。一个字段、子字段可以做成多个索引，如200$a题名可以做题名索引，也可以做关键词索引；不同字段、子字段可以做成一个索引，如CNMARC的200$a和MARC 21的245$a都可以做在题名索引中。因此MARC数据在转入系统后，如果不考虑数据转出的要求，无需保留原有的标记系统。
四、如果有可以替代2709格式的标准，只需更新ILS的数据导入部分，系统就可正常运行。
五、ILS中的书目记录编辑部分可能是需要做最多修改的部分，但基于以上“三”的原因，系统应当不需要完全重写。如Innovative系统在新建或编辑记录时，就可以不使用MARC格式。

    MARC的确是个老骨董了，与它同时代的计算机应用怕没几个还活得这么滋润的。这个，自然有它的理由。比如MARC是文本格式的，在四十年后的今天仍然可以用机器正常读出（虽然仍难看懂）。但我想最直接的理由，就是还没有制定出一个可以替代它的公认标准。
    美国国会图书馆(LC)早就制定出了MARC XML，把2709格式的MARC 21变成了可由通用（而非图书馆专用）软件处理的格式。RedLightGreen大概是第一个参照LC标准转换书目数据，实现FRBR集中同一作品功能的网上书目数据库了――顺便提一句，由于它的主人RLG被并入OCLC，RedLightGreen不久将会被关闭，想了解它的得尽早去看。
    也有其它MARC的XML格式，只是大家都不急着推广它们成为标准。理由不会是国际图联(IFLA)不尽心吧？
    喜欢传统MARC的人对XML不感兴趣，而喜欢XML的人则对MARC的字段、子字段不感兴趣，或许这才是真正的原因。

我对MARC XML很有兴趣，并期望它能成为未来的书目元数据标准。理由当然不能是我熟悉那些字段、子字段。MARC的字段、子字段用在一般人看来莫名其妙的数字、字母，其实正是其优势所在。因为它没有语言障碍，更重要的是――没有文化障碍。在英语优势的环境下，应该是很重要的一种考虑。它比其它用自然语言做标识的元数据更有优势，可以做为中介语，直接对应至各国语言。

也就是说，我希望保留MARC记录格式，而以MARC XML作为MARC交换格式标准，取代2709格式。
当然，MARC记录格式本身还有两方面的问题需要改革：

一、MARC记录中很有一些冗余数据，是当年计算机处理能力有限时遗留下来的，有必要加以改革。
二、最令人痛心的是，MARC记录格式众多。比如目前国内一般中文用源自UNIMARC的CNMARC，西文用MARC 21；而在日文，CALIS用CNMARC，国图似乎用MARC 21。
也该是统一的时候了――国际上，英国已放弃UKMARC改用MARC 21，德奥两国也在准备采用MARC 21。本来IFLA当年不以USMARC为标准，另起炉灶制定UNIMARC就是一个大错，至今仍抱着UNIMARC不放岂不是一错到底？

更新（2006-9-14 21:00）

把博客当成笔记本，写完就忘记了。刚才看别的东西，忽记起其实早已有人在筹划一个可以替代2709格式的XML国际标准了，这个名为MarcXchange国际标准是对MARCXML的修订，原说是今年完成的，参见差不多一年前写的“ISO 25577: 2709格式的XML兄弟即将问世”。
最新进展是，7月24日结束了投票，不知结果如何。可下载 ISO/DIS 25577 Information and documentation – MarcXchange 的正式投票版（PDF文件）。

由亚马逊数据直接获取MARC记录

Catalogablog介绍了一个编目工具（Cataloging Tool）：Outagamie Waupaca图书馆系统的Charles Ledvina，创建了一个使用亚马逊的商品XML数据创建MARC记录的工具。只需输入亚马逊的商品编号ASIN，程序就会返回一个相当完整的MARC记录。如果用Firefox浏览器，还提供有greasemonkey脚本（下载），可以实现同样功能。

到chopac网站上看这个“Amazon to Marc Converter”工具：

由亚马逊编号提供MARC记录

输入ISBN（亚马逊在没有ISBN号的情况下用自己的ASIN），“go”就可以生成MARC记录。生成的MARC记录可编辑，并且可以“Download”成2709格式，方便转入书目系统。

    生成的MARC记录，从字段上看还是相当完整的，充分利用了可获得的信息。另外亚马逊的编者评论作为摘要，也可以为读者提供不少信息。
    自动生成问题自然是有的，主要是规范方面，首先责任者名称就是未经规范的。另外比较明显的是主题，虽然标成LCSH的，但一眼便知不过是些关键词。因之头标标为完整级，自然也是说不过去的了。
    然而无论如何，在需要原始编目的情况下，让这个工具生成一下，还是可以省不少力的。

展望一下，如果该系统（或类似系统）再增加一些“智能”，与规范系统做一些链接处理，高质量的自动MARC编目似乎已不是那么遥不可及的了。

出版社成为图书馆外包商

《出版人?图书馆与阅读》宣传号（2006年7月），报道了多家出版社或成立图书馆服务/装备部，或在网站上设置图书馆专区，有些还提供MARC数据。

看了五家出版社网站：

人民邮电出版社的图书馆区做得最用心，而化学工业出版社下载书目定制性较好。五家都在网站上提供信息含量不一的EXCEL格式订购目录，其中人大出版社和人民邮电出版社还提供MARC格式编目数据。化学工业出版社则称联系出版社，可以获得电子书目、采访数据、现采查重，“第一时间提供新书采访数据（CNMARC、DBF、XLS格式）”。
最有意思的是人大出版社，分别提供国图编目数据和CALIS数据。从MARC记录看，似乎指的不是数据提供者，而是指数据符合某方标准。不过两种数据基本都是按国图格式的（头标、丛编、版本等），差别似只在拼音，一个用$A、一个用$9。而邮电社的记录则为CALIS格式的。国图与CALIS数据格式不一致，还真是让出版社困惑呢。

从营销方面考虑，在网站上提供MARC数据主要为书商提供方便，书商免费得到大量MARC数据，降低向图书馆配送MARC记录的成本。而对图书馆来说，在网上直接获取MARC数据，无论按类别、按时间还是定制方式，都没有什么意义。要降低编目成本，图书馆更需要的是像书商那样的现采配送MARC记录。这对于有MARC数据的出版社来说是完全可以做到的。

该宣传号第39页记者韦英平的“以馆配为龙头：机工社全面做大销售渠道”，介绍机械工业出版社的图书馆服务模式：“业务流程上，实施科学化管理，形成了一套从采访编目、图书加工（如盖馆藏章、贴标等）到物流服务的科学化、系统化的业务流程。”原来出版社也变成图书馆的外包商了。文中还说，清华大学、人民邮电、化学工业、建筑工业、法律出版社等大社都在加强图书馆直销业务。