MARC、MARC,为什么不死?

    最近正想把放在TPI学位论文库中的元数据导出,转入本馆的书目系统。要转入图书馆的书目系统,必须是MARC格式,而TPI只有导入MARC,没有导出MARC,所以必须自行编制处理程序,把原来的元数据转成MARC格式,心里很是不爽。

    正巧Keven在咒它,愿MARC“永垂不朽”。或许“MARC必须去死 (MARC must die)”,可它竟然如此不知趣,不肯自行退出历史舞台,需要别人来将它杀死 (Murdering MARC)?

    讲到MARC,必得话分两头。一头是MARC记录格式,也就是标记系统,如200、245这样的字段,$a、$3这样的子字段;另一头是MARC交换格式,也就是所谓的ISO 2709格式。
    以TPI元数据转换为例,要做两方面的处理。首先是一头,先做一个对照表,把需要的TPI元数据对应到MARC的字段、子字段。为生成完整的MARC记录,还必须添加一些TPI中没有的元数据。其次是另一头,让转出的元数据经处理后,形成2709格式。

    Keven说,“抛弃MARC最大的阻力应该来自图书馆所拥有的书目数据,以及业已装机的、成千上万的图书馆自动化系统。”在我看来应该不是。理由是:

一、图书馆所拥有的书目数据多半是2709格式的,这种格式只要编制合适的程序,可以很方便地批量转换成其它形式(反之倒未必)。
二、目前没有图书馆自动化系统(ILS)会以2709格式存储书目数据供检索。2709格式只是一个交换数据的标准格式,系统将MARC数据导入后,多半以某种数据库形式存储数据。
三、为提供检索,ILS需要在MARC数据导入时对各字段、子字段做索引。一个字段、子字段可以做成多个索引,如200$a题名可以做题名索引,也可以做关键词索引;不同字段、子字段可以做成一个索引,如CNMARC的200$a和MARC 21的245$a都可以做在题名索引中。因此MARC数据在转入系统后,如果不考虑数据转出的要求,无需保留原有的标记系统。
四、如果有可以替代2709格式的标准,只需更新ILS的数据导入部分,系统就可正常运行。
五、ILS中的书目记录编辑部分可能是需要做最多修改的部分,但基于以上“三”的原因,系统应当不需要完全重写。如Innovative系统在新建或编辑记录时,就可以不使用MARC格式。

    MARC的确是个老骨董了,与它同时代的计算机应用怕没几个还活得这么滋润的。这个,自然有它的理由。比如MARC是文本格式的,在四十年后的今天仍然可以用机器正常读出(虽然仍难看懂)。但我想最直接的理由,就是还没有制定出一个可以替代它的公认标准。
    美国国会图书馆(LC)早就制定出了MARC XML,把2709格式的MARC 21变成了可由通用(而非图书馆专用)软件处理的格式。RedLightGreen大概是第一个参照LC标准转换书目数据,实现FRBR集中同一作品功能的网上书目数据库了――顺便提一句,由于它的主人RLG被并入OCLC,RedLightGreen不久将会被关闭,想了解它的得尽早去看。
    也有其它MARC的XML格式,只是大家都不急着推广它们成为标准。理由不会是国际图联(IFLA)不尽心吧?
    喜欢传统MARC的人对XML不感兴趣,而喜欢XML的人则对MARC的字段、子字段不感兴趣,或许这才是真正的原因。

    我对MARC XML很有兴趣,并期望它能成为未来的书目元数据标准。理由当然不能是我熟悉那些字段、子字段。MARC的字段、子字段用在一般人看来莫名其妙的数字、字母,其实正是其优势所在。因为它没有语言障碍,更重要的是――没有文化障碍。在英语优势的环境下,应该是很重要的一种考虑。它比其它用自然语言做标识的元数据更有优势,可以做为中介语,直接对应至各国语言。

    也就是说,我希望保留MARC记录格式,而以MARC XML作为MARC交换格式标准,取代2709格式。
    当然,MARC记录格式本身还有两方面的问题需要改革:

一、MARC记录中很有一些冗余数据,是当年计算机处理能力有限时遗留下来的,有必要加以改革。
二、最令人痛心的是,MARC记录格式众多。比如目前国内一般中文用源自UNIMARC的CNMARC,西文用MARC 21;而在日文,CALIS用CNMARC,国图似乎用MARC 21。
    也该是统一的时候了――国际上,英国已放弃UKMARC改用MARC 21,德奥两国也在准备采用MARC 21。本来IFLA当年不以USMARC为标准,另起炉灶制定UNIMARC就是一个大错,至今仍抱着UNIMARC不放岂不是一错到底?

更新(2006-9-14 21:00)

    把博客当成笔记本,写完就忘记了。刚才看别的东西,忽记起其实早已有人在筹划一个可以替代2709格式的XML国际标准了,这个名为MarcXchange国际标准是对MARCXML的修订,原说是今年完成的,参见差不多一年前写的“ISO 25577: 2709格式的XML兄弟即将问世”。
    最新进展是,7月24日结束了投票,不知结果如何。可下载 ISO/DIS 25577 Information and documentation – MarcXchange 的正式投票版(PDF文件)。

“统一才是硬道理:图书馆编目规则网上讨论撷英”

    《新华书目报·图书馆专刊》7月18日“2006中国图书馆学会年会特刊”B42版,以“统一才是硬道理:图书馆编目规则网上讨论撷英”为题,摘录此地4月30日所发“图书馆编目原则呼唤统一”下部分讨论,并加编者按语:

《新华书目报·图书馆专刊》于5月5日和5月18日围绕在武汉召开的第一届全国文献编目工作研讨会策划了两个专题,想为图书馆编目规则的统一尽到自己的责任。从世界范围来看,编目规则的统一是大势所趋,但是国内图书馆的情况却不容乐观。其实,网上针对本报的这两次策划,也展开了热烈的讨论,特借年会之机采撷其中的精华,以飨读者。

所录评论依书目报顺序、内容如下(此处保留原评论时间):

老槐   2006-04-30 21:55:04     
日前到北京开志愿者会,休会时遇到陈力副馆长。陈馆长非常自豪地讲国图的科学管理,许多都是我认同的。但出于唱反调的习惯,我讲到了国图自己编的编目规则自己不用的问题。陈馆有些尴尬地辩解,我记得不用的主要理由是,专家很多,各有各的“学术观点”;编目部100多号人,且都习惯了原有规则,要改的话,多大的工程?
我也同意,但好的做法应该是:如果事先知道改不了,就不要编什么新规则了。若是真有必要改规则,那么一定应该有顾?乃档摹芭陌宓娜恕保?这个人不但有对规则拍板的权力,还必须有要求所有编目人员改用新规则的权力。
 
cat wizard   2006-05-14 17:31:10     
编目原则应当统一,联合编目机构自然也是统一的好。如果全世界只有一个联合目录,无论对编目员还是用户,都是最好的。所以如果要建立统一的联合编目机构,就应当不分图书馆所属系统与类型,学校、公共、社科、科学等全部联合。
只是一家独大必然造成垄断,最终未必是件好事。以OCLC为例,它不断地提高书目数据的价格,并对在网上提供馆藏链接设置很高的门槛,如今兼并WLN后又将兼并RLG,似乎要将各联盟尽数收入囊中,到时恐怕成员馆只能任其宰割。
另一方面,30年前或许无人能料最终是OCLC一统江湖,若论研究能力,RLG似乎应该更牛。恐怕正是由于存在着强大的竞争者(包括图书馆界内外),OCLC才能发展到今天。
所以,编目规则应当统一,这样大家无论从何处套录记录,向何方提交记录,都不用作什么修改。至于联合编目机构,则应当顺其自然。就好象RLG撑不下去了,自愿纳入OCLC旗下。

cat wizard   2006-05-03 08:30:59     
老话说得好:艄公多了要翻船。大家都在做持之有据的学术研究,应该能够取得共识。但如果根本理念不同,共识就难以期待了。一旦进入现代版“中体西用”即“中国特色”,大家就见人见智、任意解读了――一个标准、两方各表。

疑惑的国图人   2006-05-02 22:37:50     
我是国家图书馆的员工,看来看去,有些疑惑。说国家图书馆不用新的编目规则不知何据?如果说有一些规则大家有不同认识大概是有的,要说完全不用,可能吗?据我所知,新规则是在老规则的基础上修订的,主要是针对新型文献的。
说到制订全国统一的规则,编目精灵引用的发表了“高见”的学者,好像都是新规则修订的参与者。如果再“制定全国统一的规则”由谁来制定?由谁来统一呢?不可能由中宣部来制定吧?
编目工作不是匠人的工作,作为一项学术性很强的工作,对一些细节有不同的认识和不同的处理方法,应该是自然的。

keven   2006-05-10 09:39:02     
如果把把规则的不同、理解的不同、执行的不同、表达的不同看成造成信息系统异构的原因的话,异构是普遍存在的,信息总量越是增长,异构越是复杂,这是不可回避的事实。图书馆领域的实践似乎已经说明,一元化的信息规则成本高昂、难以实现、难以适应信息数量高速增长的现实,且不符合平民化、民主化的图书馆精神,所以新的正在研发中的技术架构就是要实现既有民主又有集中,既有自由又有纪律,既有统一意志又有个人心情舒畅,生动活泼的元数据编目规则。
 
幽灵   2006-05-10 05:57:46     
规则大家不用,其中原因之一就是规则制定过程中民主精神不够。大会上也有人提及这个问题。在这种全国性的规则制定过程中,每一稿应该实行投票制度,让大家今后没有什么可说的。

谁能将旗鼓   2006-05-05 15:08:25     
多数编目员好象只注重著录规则,却根本忽视了规则以上的原则,较好地掌握编目原则和目录原则,对编目中产生的具体问题就不会感到无所适从,这是编目员素质决定的。我们对编目内涵的理解似乎还太浅,我们对编目素质的要求似乎真的太低,好象是个人就能“照猫画虎”!不解决这个基本问题,再统一的规则摆在面前,也会理解的五花八门。
 
木棉   2006-05-04 09:06:44     
国图也并非“完全不用”,只是你出你的规则,我按我的行事。一致的就是“用了”,不一致的就是“不用”。当初的“北图”好象也这样。例子嘛,90年代初,CNMARC也是北图制定的,可北图自己发行的MARC记录就和CNMARC不一致,200字段的第二指示符啦,70X字段中外国人原名的处理啦,都和CNMARC中的规定不同。还是陈馆的话道出了真相(虽然是无奈的),其实也就是“专家太多”了,“各有各的‘学术观点’”;凭什么要听你的?又道听途说,讨论时定的规则与最后出台的也有许多不同的,所以有些参与者不认可,不执行也就在所难免了。
 
编目员   2006-05-02 16:27:21     
《中国文献编目规则》名曰规则,就是中国文献编目都要遵守的,自己都不用,如何称得上中国……规则,建议编者赶紧发个声明,为此书更名,免得给基层编目员带来更多疑惑。
 
喜欢   2006-05-01 09:14:00     
喜欢大统一,不是个性的大统一,而是喜欢编目像那个互联网那样大统一,应该是多么美好的事情啊。
 

又: 
8月21日该文下又有署名“第二个疑惑的国图人”者留言,不知是否因看了本期书目报。有兴趣可去一看。

 

由亚马逊数据直接获取MARC记录

    Catalogablog介绍了一个编目工具(Cataloging Tool):Outagamie Waupaca图书馆系统的Charles Ledvina,创建了一个使用亚马逊的商品XML数据创建MARC记录的工具。只需输入亚马逊的商品编号ASIN,程序就会返回一个相当完整的MARC记录。如果用Firefox浏览器,还提供有greasemonkey脚本(下载),可以实现同样功能。

    到chopac网站上看这个“Amazon to Marc Converter”工具:

 由亚马逊编号提供MARC记录

输入ISBN(亚马逊在没有ISBN号的情况下用自己的ASIN),“go”就可以生成MARC记录。生成的MARC记录可编辑,并且可以“Download”成2709格式,方便转入书目系统。

    生成的MARC记录,从字段上看还是相当完整的,充分利用了可获得的信息。另外亚马逊的编者评论作为摘要,也可以为读者提供不少信息。
    自动生成问题自然是有的,主要是规范方面,首先责任者名称就是未经规范的。另外比较明显的是主题,虽然标成LCSH的,但一眼便知不过是些关键词。因之头标标为完整级,自然也是说不过去的了。
    然而无论如何,在需要原始编目的情况下,让这个工具生成一下,还是可以省不少力的。

    展望一下,如果该系统(或类似系统)再增加一些“智能”,与规范系统做一些链接处理,高质量的自动MARC编目似乎已不是那么遥不可及的了。