DOAB开放获取图书目录的MARC数据转换

写了“DOAB:开放获取图书目录”(2012年4月13日),想着趁热打铁,看怎么把数据放到OPAC。DOAB提供两种获取元数据方式(About──Metadata harvesting and content dissemination),一是OAI收割DC格式数据,一是下载CSV格式数据。
———-EXCEL格式处理———-
因为有EXCEL转为MARC的软件,所以下载了CSV格式数据。
在EXCEL中“分列”并做转换,发现数据有一些问题:
1、乱码。图书语种有英语、德语、法语、荷兰语、意大利语、威尔士语,某些语种数据在我的电脑上显示为乱码,需要逐个在网站上查出重新粘贴。后来知道是Unicode的缘故。
2、数据缺失。可能部分由于字符问题,网站显示的数据就有缺失,少数题名、作者只显示很小部分(甚至单个字母),因而一眼就能看出来。需要到WorldCat上查出补全。
3、格式不一。因为数据来自出版社,所以差别较大,比如有的没有关键词。影响较大的主要有:
(1)作者。主要是有的姓名倒置,有的直序。对于全文检索这或许不是问题,但对于OPAC作者查询,影响还是比较大。
(2)语种。德文一般用German,也有一个用Deutsch。还有三个出版社不提供语种信息,其中大部分是英语,但阿姆斯特丹大学出版社有部分是荷兰语,需要逐一甄别补全。
CSV格式数据有Added on date,后续如果要识别新增数据还是很方便的。为保证系统中数据标识唯一,在EXCEL表中以Added on date及ISBN排序,依顺序给每种书一个以DOAB起始的流水号作为控制号;再给全文链接加说明语"DOAB开放获取图书",让信息更明确,也更友好些。
———-MARC格式处理———-
EXCEL表处理处理花了不少时间,完后转换为MARC。看MARC记录,要继续处理的问题还很多:
1、部分记录出错,经分析是由于EXCEL单元格超过256个字符所致,某些记录的关键词(特别是双语)、甚至个别题名会超过此限。返回去精简关键词,处理掉大部分问题数据,重新转换。
2、原来的乱码仍然乱码──因为转换软件不支持unicode。
3、同一记录有多个作者和多条ISBN,需要拆成多个字段。
由于多作者占了很大部分,结果是从头到尾把MARC记录过了不止一遍,顺手把不少无页码、无丛编、无关键词的字段删除,最后索性把不排序的题名首冠词也标记了。大部分记录都被修改过了。
———-图书馆自动化系统中处理———-
处理过程中发现转换格式有些问题,但因为已经做了不少编辑,不想返工,就留到导入图书馆自动化系统后再批量更新了:
(1)忘了在题名后补充电子资源信息|h[electronic resource];
(2)出版字段年份在出版社前(不影响识别与检索,忽略不管)
(3)不知道为什么控制号转换少了第一个字母,变成OAB起始了(这个无所谓)
此外,还要在系统中处理语种、资源类型等本馆的系统定长字段,才算完成。

本来以为可以轻松搞定的事,弄到后来直想放弃──尤其是看到那些小语种的乱码。结果是除了小语种乱码,其他都处理了,自我安慰是小语种没什么人用的。
本来想共享处理后的MARC记录,可是真的不堪入目,既有小语种乱码的重大问题,作为简编格式也极不规范,除了245字段,其他都没有字段指示符──很久没做编目了,在做转换时都没有意识到需要注意指示符。
[update 2012-4-25 已在系统中修改乱码(主要是德文字母),本馆目录查询没有问题,可惜导出为MARC记录后,这些unicode码全都消失,因而没有共享价值]