DOAB开放获取图书目录的MARC数据转换

写了“DOAB:开放获取图书目录”(2012年4月13日),想着趁热打铁,看怎么把数据放到OPAC。DOAB提供两种获取元数据方式(About──Metadata harvesting and content dissemination),一是OAI收割DC格式数据,一是下载CSV格式数据。
———-EXCEL格式处理———-
因为有EXCEL转为MARC的软件,所以下载了CSV格式数据。
在EXCEL中“分列”并做转换,发现数据有一些问题:
1、乱码。图书语种有英语、德语、法语、荷兰语、意大利语、威尔士语,某些语种数据在我的电脑上显示为乱码,需要逐个在网站上查出重新粘贴。后来知道是Unicode的缘故。
2、数据缺失。可能部分由于字符问题,网站显示的数据就有缺失,少数题名、作者只显示很小部分(甚至单个字母),因而一眼就能看出来。需要到WorldCat上查出补全。
3、格式不一。因为数据来自出版社,所以差别较大,比如有的没有关键词。影响较大的主要有:
(1)作者。主要是有的姓名倒置,有的直序。对于全文检索这或许不是问题,但对于OPAC作者查询,影响还是比较大。
(2)语种。德文一般用German,也有一个用Deutsch。还有三个出版社不提供语种信息,其中大部分是英语,但阿姆斯特丹大学出版社有部分是荷兰语,需要逐一甄别补全。
CSV格式数据有Added on date,后续如果要识别新增数据还是很方便的。为保证系统中数据标识唯一,在EXCEL表中以Added on date及ISBN排序,依顺序给每种书一个以DOAB起始的流水号作为控制号;再给全文链接加说明语"DOAB开放获取图书",让信息更明确,也更友好些。
———-MARC格式处理———-
EXCEL表处理处理花了不少时间,完后转换为MARC。看MARC记录,要继续处理的问题还很多:
1、部分记录出错,经分析是由于EXCEL单元格超过256个字符所致,某些记录的关键词(特别是双语)、甚至个别题名会超过此限。返回去精简关键词,处理掉大部分问题数据,重新转换。
2、原来的乱码仍然乱码──因为转换软件不支持unicode。
3、同一记录有多个作者和多条ISBN,需要拆成多个字段。
由于多作者占了很大部分,结果是从头到尾把MARC记录过了不止一遍,顺手把不少无页码、无丛编、无关键词的字段删除,最后索性把不排序的题名首冠词也标记了。大部分记录都被修改过了。
———-图书馆自动化系统中处理———-
处理过程中发现转换格式有些问题,但因为已经做了不少编辑,不想返工,就留到导入图书馆自动化系统后再批量更新了:
(1)忘了在题名后补充电子资源信息|h[electronic resource];
(2)出版字段年份在出版社前(不影响识别与检索,忽略不管)
(3)不知道为什么控制号转换少了第一个字母,变成OAB起始了(这个无所谓)
此外,还要在系统中处理语种、资源类型等本馆的系统定长字段,才算完成。

本来以为可以轻松搞定的事,弄到后来直想放弃──尤其是看到那些小语种的乱码。结果是除了小语种乱码,其他都处理了,自我安慰是小语种没什么人用的。
本来想共享处理后的MARC记录,可是真的不堪入目,既有小语种乱码的重大问题,作为简编格式也极不规范,除了245字段,其他都没有字段指示符──很久没做编目了,在做转换时都没有意识到需要注意指示符。
[update 2012-4-25 已在系统中修改乱码(主要是德文字母),本馆目录查询没有问题,可惜导出为MARC记录后,这些unicode码全都消失,因而没有共享价值]

LC书目框架转换行动:首届更新论坛

在1月举行的2012年ALA仲冬会议上,举办了LC书目框架转换行动的首届更新论坛,会议记录日前发布:
Bibliographic Framework Transition Initiative – Update Forum
ALA Midwinter Meeting, Dallas, Texas, January 22, 2012
(Last updated: February 6, 2012)

此次论坛可说是国会图书馆(LC)与美国图书馆界(the community)的一个初步沟通。会议记录显示,虽然转换行动的最初倡导者Deanna Marcum已在1月份从LC副馆长任上退休,但她仍将担任咨询组主席,继续主导此项目。

最后问答/开放讨论阶段的问答,还是反映了图书馆界的一些不同声音。不是支持取代MARC与否,还包括对LC运作此事的态度。毕竟时代不同了,用Paul J. Weiss的说法,图书馆界是把LC当作合伙人(partner),而非父母(parent)

———-致词与介绍———-
会议首先由LC采访与书目获取部主任Beacher Wiggins致词,欢迎参加首届更新论坛的约110名与会者(包括德国国家图书馆、西班牙国家图书馆、加拿大图书馆与档案馆的代表)。他解释,作为1960年代后期主导MARC开发的机构,LC意在尽必要长久地(as long as necessary)维护MARC,但与此同时开始在更广泛意义上寻求编码与发布书目数据的更好框架,也包括规范数据
Wiggins同时介绍了除他本人外,目前从事此项目的其他LC员工,涉及多个部门:
· ILS项目办公室:主管Ann Della Port
· 网络开发与MARC标准办公室:数字项目协调人Kevin Ford,主管Sally McCallum(会议主要发言者之一)
· 采访与书目获取部:主任特别助理Susan R. Morris(消息发布者)
· 政策与标准部:高级编目政策专家Dave Reser,主任Barbara Tillett
· 技术政策主任Ruth Scovill

———-开场白———-
首先发言的是Deanna Marcum,题目是“需要新书目框架”。她回顾了她在2005年ALA仲冬会议上谈“编目的未来”以来的历史,指出有两个现象显示,新框架时代已经到来:
第一,2008年1月书目控制未来工作组向LC及图书馆界提出108个建议;
第二,美国RDA测试协调委员会最终报告指定“可靠地走向取代MARC”作为实施RDA的必要条件之一。
因此,2011年5月Marcum任命Wiggins、McCallum及若干LC管理者开始转换到新书目框架。
考虑到LC在MARC上的巨大投资,她问LC团队,在Google时代,MARC主要发明者Avram会做什么。所有人都同意,Avram不会视MARC为最终答案,会看到MARC的演化,以满足现代需求。2011年10月31日发布计划草案,将建立两个小组,咨询组建立总原则,以及技术开发组。她同意以自愿者身份,担任咨询组组长。
──上述第二点,听上去像是MARC不灭就不实施RDA,其实(progress toward)应该是同时进行。就好象最终报告第一条建议用的是重写(rewrite),现更正为改写(reword),当初有点语不惊人势不休的味道。

接下来是Sally McCallum概述书目框架转换最初规划(2011年10月31日发布)
她强调该计划目前还处于比较空泛的阶段(very high-level),其目的是提出未来需求,探索未来步骤的途径,建议LC及图书馆界如何处理其遗产数据及系统。计划设想的新框架具有以下特征(略)。

———-最新信息(更新)———-
首先由Sally McCallum概述对最初转换计划的回应。她鼓励所有参加论坛者订阅BIBFRAME邮件组,并发表评论。
──从最后讨论阶段看,多人对鼓励大家参与,而LC本身员工不参与颇有微词。LC方面也未对此回应,似乎不想改变这种状况,难道是只用于收集意见,不解释?

至今为止的评论集中在几个主题:
· 核心数据:开发者如何确定什么元素是核心?在这个世界上,每个数据元素都会对某个人是核心
· 关于最终用户,书目框架转换的目标:如何能使图书馆向客户传递更多的价值
· 关于编目员的目标:新框架不大会规定一个界面
若干外国的国家图书馆已提交对转换行动的支持声明。
──后面还多次强调其他国家的国家图书馆对此行动的支持。又是时代不同了,曾经各个国家都要做有自己特色的标准,现在更愿意用共同标准,既省事又方便互用

接下来Deanna Marcum介绍转换行动的资助情况。她承诺为转换行动找资源,希望今冬得到一些。对新书目框架的图书馆界交流必须包括来自其他国家及全美国的声音,这会使计划昂贵。
Wiggins提到,论坛后LC小组希望在不同地区主办一系列邀请会议,如同书目控制未来工作组在2007年那样。Marcum任咨询小组主席,将提供长期指导、监控费用、确保图书馆管理者获知行动进展情况。
──当年MARC研制也是得到外部资助的。

最后是Beacher Wiggins介绍两个小组:咨询小组、技术小组。技术组将按模块开发新框架。名单计划在小组成员完全确定后再公布。LC还设想针对框架的不同部分,组成若干技术分小组。Wiggins鼓励有兴趣参加小组或分小组者联系。

———-问答/开放讨论———-
Elizabeth O’Keefe:咨询与技术小组成员所承诺的时间与资源的性质?
Wiggins:LC与Marcum正寻求资助,在2012年至少每个小组主办一次面对面会议。不要求小组成员以之为全职。

Paul J. Weiss:其他国家的MARC维护机构的职责
McCallum:他们渴望获邀参与。若干国家图书馆已发送支持行动信息。

Louise Ratliff:请在网站上提供一些“阅读建议”。
Wiggins:很好的建议。LC将承担提供阅读书目。推荐阅读涉及RDF、关联系统及相关论题。

John Espley:有没有办法让邮件组的评论更正点?有时论调是负面的。
McCallum:我们觉得人们需要发出声音,应该觉得他们的输入被考虑。
──这说明邮件组中负面评论不少。对比RDA正式发布前,RDA-L邮件组中也多负面评论,改变不是件容易的事。刚去邮件组粗粗浏览,似乎是同样一批人在讨论。

John Attig:邮件组读者与论坛观众欢迎与转换行动决策者直接交流。他们要LC的人在邮件组里表达个人观点。
──此发言及后面Hillmann的发言,说明LC项目成员并不参加邮件组讨论,而这点很让两人不快。并且这两个发言都没有得到LC方面的回应。
──提问者John Attig为RDA联合指导委员会(JSC)的ALA代表,其实在RDA-L邮件组,印象中也极少见到JSC成员发言。

Robert Ellett:Marcum和Wiggins在ALCTS于2011年8月的RDA网络会议上很棒,还会有更多这样的机会吗?
Wiggins:更多由LC、ALCTS或其他实体的网络会议正在考虑中

Janet Ahrberg:转换行动中是否包括厂商?
Wiggins:已经进行中

John F. Myers:当习惯于一定的认知框架,就难以认识打开的另一个维度。致力于转换行动者不应该因负面评论而气馁。提供从MARC到新框架的转换很重要,但先开发新框架,然后建立返回MARC的桥梁也有道理。

Diane Hillmann:希望LC成员可以在邮件组中以个人观点回应评论。LC正在开发下一个大事(the Next Big Thing)的建议要求保证图书馆界将是完全参与者,因此可避免silo。图书馆界关心,所有人都在讨论中发出声音者。

Paul J. Weiss:可以理解厂商与国家图书馆必须有统一的声音,但是现在图书馆界把LC当作合作伙伴,而非父母。框架开发者不应该担心与图书馆界观点不一致。

John Attig:“LC制造”,或者甚至“图书馆制造”,不是所希望的
──此意不明?是要非图书馆制造?

Cheryl Cook:框架小组应该看看Kuali OLE,一个面向社区的研究图书馆管理系统,使用开源软件,因为它连接财务和书目数据。
Wiggins:框架确实会考虑这类连接

论坛闭幕时发表意见,图书馆社区需要扎克伯格(脸书CEO)

Via RDA-L: US RDA Test Update and BibFrame Forum minutes available
书目框架邮件组:BIBFRAME listserv

———-关于书目框架转变行动———-
准备抛弃MARC?美国国会图书馆启动“书目框架转变行动”(2011年5月24日)

“书目框架转变行动”引来一片赞扬(2011年5月25日)

MARC的日子屈指可数?(2011年11月1日)
《LC书目框架计划总体规划》发布

国会图书馆书目框架计划总体规划(2011年11月2日)

未来书目格式的目标与测度(2011年11月2日)

Karen Coyle博文,从费用、协作与创新三个方面,为该计划撰写她所设想的目标与测度。
(本次论坛她因要参加同时间召开的图书馆关联数据孵化小组会议而未能参加,但在邮件组中要求提供信息)

台湾采用MARC21格式之理由

毛庆祯教授在KohaTaiwan上提供了台湾的国家图书馆改用MARC21的两份文件。网上搜了一下,出自台湾的《国家图书馆电子报》第29期(2011/01/11)之综合报道:
书业有专攻:国家图书馆书目格式采用MARC21之说明及Q&A

———-说明文件———-
國家圖書館書目格式採用 MARC21 之說明
本文件对由CMARC改用MARC21的理由作了充分的解释。如果不考虑MARC21本身前途未明的情况,这些理由对于采用其他MARC格式的地区也同样是很有说服力的,对于同时采用两种MARC格式的大陆地区,尤其如此。摘取几点如下:

一、採用MARC21的優點:
2、MARC21有MARBI及MARC Advisory Committee兩個團體負責檢討及修正相關條文,並於每年ALA會議中討論MARC的新發展,以因應網路時代各種媒體需求,修訂書目格式。MARC 21已有對應至各種詮釋資料的對照表,包括MARCXML、MODS、MADS、Dublin Core、Digital Geospatial Metadata、GILS及UNIMARC等,積極為MARC 21成為圖書館界朝向全球化的整合性通用資料格式而努力。

二、採用MARC 21之預期效益:
1、符合世界潮流
MARC 21不僅為美國、加拿大及英國國家圖書館所採用,且國外知名大型圖書館,多數採用MARC 21。加以MARC 21隨時因應國際性資訊組織相關標準規範(例如FRBR、FRAD、ICP、FRSAD、RDA)進行維護與更新,因此使用MARC 21較能符合世界潮流。
2、含括完整格式
3、便利資源共享
4、節省維護成本
5、相容系統發展
6、善用國際編目資源

———-常见问题———-
MARC21 Q & A
本文件中提供了更多MARC21的信息,关于改用MARC21的国家,可与我们曾经搜集的资料互参:
3. 使用MARC21的國家圖書館有哪些?
已知越南、泰國、印度、英國等國家圖書館,都先後放棄發展自己國家的MARC,而改用MARC21;其他多個歐美國家或參考或採用USMARC/MARC 21 作為該國的機讀格式。例如: 1991年澳大利亞圖書館放棄AUSMARC,決改採USMARC。而挪威(NORMARC)、丹麥(danMARC2)、芬蘭 (FINMARC)、瑞典(SWEMARC)、波蘭(MARCBN)、西班牙(IBERMARC)、匈牙利(HUNMARC)等國則參考 USMARC/MARC 21修改成為該國的機讀編目格式。
最近有些原先參考USMARC的國家則放棄該國原有的機讀格式,改採MARC21,以節省各國維護其機讀格式的人力及成本。例如:瑞典於2001年放棄SWEMARC,改採MARC21;芬蘭於2001年從 FINMARC改為MARC21‐Fin 。德國和奧地利於2009年6月宣布改用MARC21 。
挪威正準備成立工作小組,研究是否放棄NORMARC而改採MARC21或UNIMARC;日本國會圖書館目前則考慮採用MARC21。

———参见———-
台湾的X-MARC格式:关于广域书目系统(2011年11月6日)
MARC四十年的发展及其未来–《中国图书馆学报》2010年02期