RDA的MARC全记录实例发布

按照美国RDA测试报告的要求,RDA工具包网站4月23日发布了JSC编制的RDA的MARC全记录实例,包括书目记录与规范记录。实例现以PDF格式免费下载,意在作为RDA培训及日常工作的参考资料。RDA工具包5月更新时,将包括此部分内容。

MARC Record Examples of RDA Cataloging
本次发布的实例,每个都由“RDA元素”和“MARC编码”二部分组成。前者有助于掌握各类资源(对书目记录而言)或实体(对规范记录而言)所对应的RDA元素,后者可在某种程度上视为相应的MARC记录模板。
目前看来书目记录实例还太少,甚至没有涵盖RDA的25个内容类型或10个媒介类型。期待未来扩大。

一、书目格式
含7个实例:
1、录音(声频记录)──图书
2、录音(声频记录)──音乐
3、图书1
4、图书2
5、连续出版物
6、录像(视频记录)
7、网站──集成性资源
二、规范格式
包括五个部分,每个含若干实例:
1、个人名称(7个实例)
2、家族名称(2个实例)
3、团体(5个实例)
4、作品(7个实例)
5、内容表达(2个实例)

Via RDA Toolkit Blog: RDA Examples now available (23 Apr 2012)

参见:RDA美国测试结果公布 (2011年6月15日)

DOAB开放获取图书目录的MARC数据转换

写了“DOAB:开放获取图书目录”(2012年4月13日),想着趁热打铁,看怎么把数据放到OPAC。DOAB提供两种获取元数据方式(About──Metadata harvesting and content dissemination),一是OAI收割DC格式数据,一是下载CSV格式数据。
———-EXCEL格式处理———-
因为有EXCEL转为MARC的软件,所以下载了CSV格式数据。
在EXCEL中“分列”并做转换,发现数据有一些问题:
1、乱码。图书语种有英语、德语、法语、荷兰语、意大利语、威尔士语,某些语种数据在我的电脑上显示为乱码,需要逐个在网站上查出重新粘贴。后来知道是Unicode的缘故。
2、数据缺失。可能部分由于字符问题,网站显示的数据就有缺失,少数题名、作者只显示很小部分(甚至单个字母),因而一眼就能看出来。需要到WorldCat上查出补全。
3、格式不一。因为数据来自出版社,所以差别较大,比如有的没有关键词。影响较大的主要有:
(1)作者。主要是有的姓名倒置,有的直序。对于全文检索这或许不是问题,但对于OPAC作者查询,影响还是比较大。
(2)语种。德文一般用German,也有一个用Deutsch。还有三个出版社不提供语种信息,其中大部分是英语,但阿姆斯特丹大学出版社有部分是荷兰语,需要逐一甄别补全。
CSV格式数据有Added on date,后续如果要识别新增数据还是很方便的。为保证系统中数据标识唯一,在EXCEL表中以Added on date及ISBN排序,依顺序给每种书一个以DOAB起始的流水号作为控制号;再给全文链接加说明语"DOAB开放获取图书",让信息更明确,也更友好些。
———-MARC格式处理———-
EXCEL表处理处理花了不少时间,完后转换为MARC。看MARC记录,要继续处理的问题还很多:
1、部分记录出错,经分析是由于EXCEL单元格超过256个字符所致,某些记录的关键词(特别是双语)、甚至个别题名会超过此限。返回去精简关键词,处理掉大部分问题数据,重新转换。
2、原来的乱码仍然乱码──因为转换软件不支持unicode。
3、同一记录有多个作者和多条ISBN,需要拆成多个字段。
由于多作者占了很大部分,结果是从头到尾把MARC记录过了不止一遍,顺手把不少无页码、无丛编、无关键词的字段删除,最后索性把不排序的题名首冠词也标记了。大部分记录都被修改过了。
———-图书馆自动化系统中处理———-
处理过程中发现转换格式有些问题,但因为已经做了不少编辑,不想返工,就留到导入图书馆自动化系统后再批量更新了:
(1)忘了在题名后补充电子资源信息|h[electronic resource];
(2)出版字段年份在出版社前(不影响识别与检索,忽略不管)
(3)不知道为什么控制号转换少了第一个字母,变成OAB起始了(这个无所谓)
此外,还要在系统中处理语种、资源类型等本馆的系统定长字段,才算完成。

本来以为可以轻松搞定的事,弄到后来直想放弃──尤其是看到那些小语种的乱码。结果是除了小语种乱码,其他都处理了,自我安慰是小语种没什么人用的。
本来想共享处理后的MARC记录,可是真的不堪入目,既有小语种乱码的重大问题,作为简编格式也极不规范,除了245字段,其他都没有字段指示符──很久没做编目了,在做转换时都没有意识到需要注意指示符。
[update 2012-4-25 已在系统中修改乱码(主要是德文字母),本馆目录查询没有问题,可惜导出为MARC记录后,这些unicode码全都消失,因而没有共享价值]

xA:OCLC扩展虚拟国际规范档

4月初刚宣布“虚拟国际规范档移交OCLC”,不到两周,OCLC首席科学家Thomas B. Hickey就在博客上介绍了OCLC的扩展VIAF项目──xA (Extended VIAF Authority),目前还是测试版。

VIAF作为一个虚拟联合规范库,只是对来源记录做关联,即使发现来源记录有问题,也不能随意改变。当然会报告来源方,但等对方修改,自然不如自己处理方便。OCLC的解决之道是做一套自己的规范记录,即xA,作为VIAF的第24个来源。xA记录中可以加入自己强化的信息,并链接其他来源。

Thom给出了奥巴马的xA例子,给奥巴马加上了出生日期(其他来源只会加生卒年)。在相应的VIAF例子中,已经可以看到xA并列在其他23个来源中。

与其他来源采用MARC21或UNIMARC规范格式不同,xA采用MADS 2.0(远洋师的学生Jeff Young提供咨询)。使用SRU检索,XSLT格式化显示,还可以进行创建、更新及删除等编辑操作(采用AtomPub协议)。

如果想试试编辑功能,可以到沙盘试手,用户名和口令均为guest

Via Outgoing: xA (April 16, 2012)