MARC、MARC,为什么不死?

    最近正想把放在TPI学位论文库中的元数据导出,转入本馆的书目系统。要转入图书馆的书目系统,必须是MARC格式,而TPI只有导入MARC,没有导出MARC,所以必须自行编制处理程序,把原来的元数据转成MARC格式,心里很是不爽。

    正巧Keven在咒它,愿MARC“永垂不朽”。或许“MARC必须去死 (MARC must die)”,可它竟然如此不知趣,不肯自行退出历史舞台,需要别人来将它杀死 (Murdering MARC)?

    讲到MARC,必得话分两头。一头是MARC记录格式,也就是标记系统,如200、245这样的字段,$a、$3这样的子字段;另一头是MARC交换格式,也就是所谓的ISO 2709格式。
    以TPI元数据转换为例,要做两方面的处理。首先是一头,先做一个对照表,把需要的TPI元数据对应到MARC的字段、子字段。为生成完整的MARC记录,还必须添加一些TPI中没有的元数据。其次是另一头,让转出的元数据经处理后,形成2709格式。

    Keven说,“抛弃MARC最大的阻力应该来自图书馆所拥有的书目数据,以及业已装机的、成千上万的图书馆自动化系统。”在我看来应该不是。理由是:

一、图书馆所拥有的书目数据多半是2709格式的,这种格式只要编制合适的程序,可以很方便地批量转换成其它形式(反之倒未必)。
二、目前没有图书馆自动化系统(ILS)会以2709格式存储书目数据供检索。2709格式只是一个交换数据的标准格式,系统将MARC数据导入后,多半以某种数据库形式存储数据。
三、为提供检索,ILS需要在MARC数据导入时对各字段、子字段做索引。一个字段、子字段可以做成多个索引,如200$a题名可以做题名索引,也可以做关键词索引;不同字段、子字段可以做成一个索引,如CNMARC的200$a和MARC 21的245$a都可以做在题名索引中。因此MARC数据在转入系统后,如果不考虑数据转出的要求,无需保留原有的标记系统。
四、如果有可以替代2709格式的标准,只需更新ILS的数据导入部分,系统就可正常运行。
五、ILS中的书目记录编辑部分可能是需要做最多修改的部分,但基于以上“三”的原因,系统应当不需要完全重写。如Innovative系统在新建或编辑记录时,就可以不使用MARC格式。

    MARC的确是个老骨董了,与它同时代的计算机应用怕没几个还活得这么滋润的。这个,自然有它的理由。比如MARC是文本格式的,在四十年后的今天仍然可以用机器正常读出(虽然仍难看懂)。但我想最直接的理由,就是还没有制定出一个可以替代它的公认标准。
    美国国会图书馆(LC)早就制定出了MARC XML,把2709格式的MARC 21变成了可由通用(而非图书馆专用)软件处理的格式。RedLightGreen大概是第一个参照LC标准转换书目数据,实现FRBR集中同一作品功能的网上书目数据库了――顺便提一句,由于它的主人RLG被并入OCLC,RedLightGreen不久将会被关闭,想了解它的得尽早去看。
    也有其它MARC的XML格式,只是大家都不急着推广它们成为标准。理由不会是国际图联(IFLA)不尽心吧?
    喜欢传统MARC的人对XML不感兴趣,而喜欢XML的人则对MARC的字段、子字段不感兴趣,或许这才是真正的原因。

    我对MARC XML很有兴趣,并期望它能成为未来的书目元数据标准。理由当然不能是我熟悉那些字段、子字段。MARC的字段、子字段用在一般人看来莫名其妙的数字、字母,其实正是其优势所在。因为它没有语言障碍,更重要的是――没有文化障碍。在英语优势的环境下,应该是很重要的一种考虑。它比其它用自然语言做标识的元数据更有优势,可以做为中介语,直接对应至各国语言。

    也就是说,我希望保留MARC记录格式,而以MARC XML作为MARC交换格式标准,取代2709格式。
    当然,MARC记录格式本身还有两方面的问题需要改革:

一、MARC记录中很有一些冗余数据,是当年计算机处理能力有限时遗留下来的,有必要加以改革。
二、最令人痛心的是,MARC记录格式众多。比如目前国内一般中文用源自UNIMARC的CNMARC,西文用MARC 21;而在日文,CALIS用CNMARC,国图似乎用MARC 21。
    也该是统一的时候了――国际上,英国已放弃UKMARC改用MARC 21,德奥两国也在准备采用MARC 21。本来IFLA当年不以USMARC为标准,另起炉灶制定UNIMARC就是一个大错,至今仍抱着UNIMARC不放岂不是一错到底?

更新(2006-9-14 21:00)

    把博客当成笔记本,写完就忘记了。刚才看别的东西,忽记起其实早已有人在筹划一个可以替代2709格式的XML国际标准了,这个名为MarcXchange国际标准是对MARCXML的修订,原说是今年完成的,参见差不多一年前写的“ISO 25577: 2709格式的XML兄弟即将问世”。
    最新进展是,7月24日结束了投票,不知结果如何。可下载 ISO/DIS 25577 Information and documentation – MarcXchange 的正式投票版(PDF文件)。

由亚马逊数据直接获取MARC记录

    Catalogablog介绍了一个编目工具(Cataloging Tool):Outagamie Waupaca图书馆系统的Charles Ledvina,创建了一个使用亚马逊的商品XML数据创建MARC记录的工具。只需输入亚马逊的商品编号ASIN,程序就会返回一个相当完整的MARC记录。如果用Firefox浏览器,还提供有greasemonkey脚本(下载),可以实现同样功能。

    到chopac网站上看这个“Amazon to Marc Converter”工具:

 由亚马逊编号提供MARC记录

输入ISBN(亚马逊在没有ISBN号的情况下用自己的ASIN),“go”就可以生成MARC记录。生成的MARC记录可编辑,并且可以“Download”成2709格式,方便转入书目系统。

    生成的MARC记录,从字段上看还是相当完整的,充分利用了可获得的信息。另外亚马逊的编者评论作为摘要,也可以为读者提供不少信息。
    自动生成问题自然是有的,主要是规范方面,首先责任者名称就是未经规范的。另外比较明显的是主题,虽然标成LCSH的,但一眼便知不过是些关键词。因之头标标为完整级,自然也是说不过去的了。
    然而无论如何,在需要原始编目的情况下,让这个工具生成一下,还是可以省不少力的。

    展望一下,如果该系统(或类似系统)再增加一些“智能”,与规范系统做一些链接处理,高质量的自动MARC编目似乎已不是那么遥不可及的了。

 

出版社成为图书馆外包商

    《出版人?图书馆与阅读》宣传号(2006年7月),报道了多家出版社或成立图书馆服务/装备部,或在网站上设置图书馆专区,有些还提供MARC数据。

    看了五家出版社网站: 

    人民邮电出版社的图书馆区做得最用心,而化学工业出版社下载书目定制性较好。五家都在网站上提供信息含量不一的EXCEL格式订购目录,其中人大出版社和人民邮电出版社还提供MARC格式编目数据。化学工业出版社则称联系出版社,可以获得电子书目、采访数据、现采查重,“第一时间提供新书采访数据(CNMARC、DBF、XLS格式)”。
    最有意思的是人大出版社,分别提供国图编目数据CALIS数据。从MARC记录看,似乎指的不是数据提供者,而是指数据符合某方标准。不过两种数据基本都是按国图格式的(头标、丛编、版本等),差别似只在拼音,一个用$A、一个用$9。而邮电社的记录则为CALIS格式的。国图与CALIS数据格式不一致,还真是让出版社困惑呢。

    从营销方面考虑,在网站上提供MARC数据主要为书商提供方便,书商免费得到大量MARC数据,降低向图书馆配送MARC记录的成本。而对图书馆来说,在网上直接获取MARC数据,无论按类别、按时间还是定制方式,都没有什么意义。要降低编目成本,图书馆更需要的是像书商那样的现采配送MARC记录。这对于有MARC数据的出版社来说是完全可以做到的。

    该宣传号第39页记者韦英平的“以馆配为龙头:机工社全面做大销售渠道”,介绍机械工业出版社的图书馆服务模式:“业务流程上,实施科学化管理,形成了一套从采访编目、图书加工(如盖馆藏章、贴标等)到物流服务的科学化、系统化的业务流程。”原来出版社也变成图书馆的外包商了。文中还说,清华大学、人民邮电、化学工业、建筑工业、法律出版社等大社都在加强图书馆直销业务。