ONIX记录数据库及Onix/UNIMARC对照表

    加州数字图书馆的 Roy Tennant 收集了10万多条出版社下载的ONIX记录,做了一个检索系统,提供题名、介绍、出版者和ISBN四个检索途径。
    检索结果除了简单的书目信息,一般还有目次与内容简介。当然最令人感兴趣的是它的 raw record,也就是ONIX记录。
    曾经在LC的MARC标准主页见过ONIX/MARC21对照表,所以识得ONIX的字段,但没有见过ONIX记录。就好象见过MARC手册,没见过2709格式。以前没有刻意找过,如今真是得来全不费功夫。

    在 Roy’s Prototype Space——ONIX Records for Libraries,除了上述检索系统,还有相关出版社ONIX记录样本,以及各出版社的获取记录方法页面链接。有鱼还有渔,真是不错。

    想到去ONIX主页逛逛,发现有“ONIX mappings to MARC”,MARC21对照表不但有LC版,还有OCLC的 Bob Pearson 版。尤其令人感兴趣的是还有UNIMARC对照表——ONIX / UNIMARC Mapping 由不列颠图书馆 Alan Danskin 制作。
    点击链接后才发现高兴太早,因为链去的BIC主页改版,对照表踪影全无。Google了一圈,全都只有链接,没有找到原文。或许要想法联系作者,才能得到那个Onix/UNIMARC对照表了。

关于ONIX:
The ONIX for Books Product Information Message is the international standard for representing and communicating book industry product information in electronic form.
Latest general release: Release 2.1 (revision 02)
For users in most countries, the current release is Release 2.1 revision 02, published in 2004, with some minor revisions to documentation in February 2005.

via: Catalogablog (2007-2-8)
ONIX Resource http://catalogablog.blogspot.com/2007/02/onix-resource.html

《中文图书标识数据》的指示符问题

    耄耋少年在“元数据研究思考(1)”中认为,MARC格式中的字段指示符实际上并没有用。并指出《中文图书标识数据》征求意见稿虽然用CNMARC,但是不用字段指示符,不知道图书馆界是否会认可。

    从MARC格式看,MARC21的字段指示符表达的含义其实还是比较丰富的,如说明题名的出处与类型(封面、书脊等),说明附加责任者/题名的类型(相关或分析)等。相对而言,UNIMARC及与之兼容的CNMARC的字段指示符确实用处不大,因为UNIMARC或者用不同的字段来表达不同的含义,或者干脆就不加区分(如相关题名、附加责任者等不区分是否为分析)。这就形成了UNIMARC的指示符基本上都用缺省值的局面,所以一般看来,不用也不会产生什么大的麻烦。
    从书目数据角度,对数据质量有要求的图书馆,从出版发行渠道来的数据基本上是弃之不用的;对数据质量没什么要求的图书馆,哪怕直接由EXCEL表转换来的书目数据也照用不误。至于两者在质量及使用效果上的差异肯定是存在的,但相关的调查怕是很难进行,也没有见到过详细的分析。

    标准固然应该与时俱进,但也要考虑与国际标准的兼容,毕竟我们的书目数据还是有与国外数据进行交换的需要的。在UNIMARC没有改变之前,要求CNMARC先行创新,恐怕难以实现。
    以我之见,如果《中文图书标识数据》要用CNMARC格式,为了看上去更“专业”一些,让推广更顺利或者说得到图书馆编目界的认可,还是应该用指示符——都用缺省值就行了,不过就在标准各处多加一项,说明某某字段用什么指示符而已。有点小麻烦的是,个别字段的指示符国图与CALIS有差异,需要先行协调确认。

    回到《中文图书标识数据》采用CNMARC与DC这个问题。我还是以为类似标准采用国际通行标准如ONIX、今后配套转换程序更好。ONIX中大量的电子商务数据,有助于提高出版社采用的积极性。
    虽然我不了解情况,但把当初CIP没有用CNMARC当作CIP数据未能广为采用的主要原因,怕是说不过去的。如果有心推广使用CIP数据,做个转换成CNMARC的程序,那还不是小菜一碟?

参见:

《中文图书标识数据》(征求意见稿)观感

书蠹精:标识性编目和ONIX

《中文图书标识数据》(征求意见稿)观感

    耄耋少年博客新开,一连发表了“标识性编目”系列博文,使我对此问题有了一定的了解。规范出版行业需要提供的书目信息,不管从哪个方面来说都是很有必要的,即使这样做的目的是让图书馆的大部分编目员失业。

    正好有幸看到了中华人民共和国新闻出版行业标准《中文图书标识数据》(征求意见稿),觉得特别困惑的就是其主体“4  标识数据”采用CNMARC名称(字段、子字段)与DC元数据表达各著录项。该标准长达56页,说其繁复程度不亚于编目手册,或许也算不得夸张。而“附录3.  中文图书标识数据应用实例”,看上去就是一条常见的CNMARC记录,一点未体现出或者说让人感受到耄耋少年在其博文中所说的标识性编目的优点。总体而言,可以说有见到编目手册的“亲切感”。
   
    如果要对这个行业标准提一些观感,那么就是以下四点:

1、国际出版界电子形式产品信息的标准是ONIX,美国国会图书馆在编目中也使用ONIX数据,我国的相应标准是否应当考虑与其兼容?

2、本标准同时采用MARC与DC,不会意味着出版者必须同时提交两种格式的数据吧?应当是只需一种格式,另一种格式经过转换即可。或许可以认为本标准同时提供两种格式转换的标准(附录1和附录2分别为CNMARC到DC和DC到CNMARC的对应表)。

3、元数据之间的转换不可避免。无论是图书馆现在所用MARC还是未来用某种元数据(不排除DC),只要向出版行业或图书馆提供格式转换软件,数据即具有通用性。不必拘泥于某一元数据格式。

4、标准如果要有长期的指导性,更不应将其局限在某一种元数据格式中。标准只要确定需要哪些项目(如同ISBD的八大项若干小项),至于用什么方式表现这些项目,是用2709格式文本、EXCEL表格、XML格式文本或是其他什么形式,肯定会随技术的发展而改变。

参见耄耋少年的相关博文:
出版界书目工作有大的进展(http://blog.sina.com.cn/u/4bd4c87b010006mw)
“2005年发布了《图书流通信息交换规则》 和CIP相比,明确使用CNMARC格式为信息交换格式”
“自动编目软件已开发成功  自动编目是图书馆界做不了的”
“从源头进行书目数据制作可实现更大范围的信息资源共享  真正做到一家编目,大家使用”

中文图书标识数据(征求意见稿)系列(http://blog.sina.com.cn/u/4bd4c87b010006my)
不知道为什么发布的是7-14,内容为“附录1.  中文图书标识数据使用CNMARC字段、子字段一览表”,而不发布正文部分。寻些CNMARC字段、子字段估计把很多人都弄晕了。

关于《中文图书标识数据》标准 2007-01-12(http://blog.sina.com.cn/u/4bd4c87b010006nj)
“这是出版信息化建设的重要举措。主要为实现在图书出版过程中自动编目规定一个数据内容。这样,在图书付印前,就可以产生符合书目记录要求的数据。此事已酝酿好几年,标准推行后,其中基本部分将以二维码形式印在书上,完整内容将在图书付印前在网上发布。以满足出版社、书商、图书馆与读者对书目信息的需求。”“因为是在电子文本上进行标识,而不是另行描述,所以称之为标识性编目。”

关于ECIP与自动编目(http://blog.sina.com.cn/u/4bd4c87b010006p5)
新制定的《图书流通信息交换规则》及正在制定的《中文图书标识数据》等中均采用CNMARC。

标识性编目概念的提出(http://blog.sina.com.cn/u/4bd4c87b010006qh)
“自动编目处理的是图书付印前的电子文本,对其具有的属性数据进行标识。在制定相关标准时,可要求一种新出版的图书必须具有那些属性数据,使图书制作者有所遵循,在属性数据项目的设置上按规范要求处理。”
“标识性编目不可能代替描述性编目,两者将长期共存。一是正式出版的图书方可先行标识,而文献收藏机构总有部分非正式出版的图书。二是对过去出版的图书,还只能进行描述性编目。”

标识性编目的特点(http://blog.sina.com.cn/u/4bd4c87b010006r8)
“4.真正做到一家编目,大家使用。由于出版单位在图书发行前即提供了标准化的书目数据,发行商与图书馆可不用另行编目了。”

努力做好标识性编目的事情(http://blog.sina.com.cn/u/4bd4c87b010006s7)
“文献编目是社会性事业,出版、发行、图书馆、情报所等都是图书目录的编制者,必须改变“图书馆目录”的狭隘观念。”
“数字图书馆需要解决自动编目的问题,但图书馆界做不了。不能因为图书馆界做不了就不加以研究。”
“加强元数据研究,主要是突破繁琐哲学,在新的条件下,探索可满足检索要求的元数据设置。”[理论与实践怕总是有距离的]