《中文图书标识数据》的指示符问题

    耄耋少年在“元数据研究思考(1)”中认为,MARC格式中的字段指示符实际上并没有用。并指出《中文图书标识数据》征求意见稿虽然用CNMARC,但是不用字段指示符,不知道图书馆界是否会认可。

    从MARC格式看,MARC21的字段指示符表达的含义其实还是比较丰富的,如说明题名的出处与类型(封面、书脊等),说明附加责任者/题名的类型(相关或分析)等。相对而言,UNIMARC及与之兼容的CNMARC的字段指示符确实用处不大,因为UNIMARC或者用不同的字段来表达不同的含义,或者干脆就不加区分(如相关题名、附加责任者等不区分是否为分析)。这就形成了UNIMARC的指示符基本上都用缺省值的局面,所以一般看来,不用也不会产生什么大的麻烦。
    从书目数据角度,对数据质量有要求的图书馆,从出版发行渠道来的数据基本上是弃之不用的;对数据质量没什么要求的图书馆,哪怕直接由EXCEL表转换来的书目数据也照用不误。至于两者在质量及使用效果上的差异肯定是存在的,但相关的调查怕是很难进行,也没有见到过详细的分析。

    标准固然应该与时俱进,但也要考虑与国际标准的兼容,毕竟我们的书目数据还是有与国外数据进行交换的需要的。在UNIMARC没有改变之前,要求CNMARC先行创新,恐怕难以实现。
    以我之见,如果《中文图书标识数据》要用CNMARC格式,为了看上去更“专业”一些,让推广更顺利或者说得到图书馆编目界的认可,还是应该用指示符——都用缺省值就行了,不过就在标准各处多加一项,说明某某字段用什么指示符而已。有点小麻烦的是,个别字段的指示符国图与CALIS有差异,需要先行协调确认。

    回到《中文图书标识数据》采用CNMARC与DC这个问题。我还是以为类似标准采用国际通行标准如ONIX、今后配套转换程序更好。ONIX中大量的电子商务数据,有助于提高出版社采用的积极性。
    虽然我不了解情况,但把当初CIP没有用CNMARC当作CIP数据未能广为采用的主要原因,怕是说不过去的。如果有心推广使用CIP数据,做个转换成CNMARC的程序,那还不是小菜一碟?

参见:

《中文图书标识数据》(征求意见稿)观感

书蠹精:标识性编目和ONIX

《中文图书标识数据》(征求意见稿)观感

    耄耋少年博客新开,一连发表了“标识性编目”系列博文,使我对此问题有了一定的了解。规范出版行业需要提供的书目信息,不管从哪个方面来说都是很有必要的,即使这样做的目的是让图书馆的大部分编目员失业。

    正好有幸看到了中华人民共和国新闻出版行业标准《中文图书标识数据》(征求意见稿),觉得特别困惑的就是其主体“4  标识数据”采用CNMARC名称(字段、子字段)与DC元数据表达各著录项。该标准长达56页,说其繁复程度不亚于编目手册,或许也算不得夸张。而“附录3.  中文图书标识数据应用实例”,看上去就是一条常见的CNMARC记录,一点未体现出或者说让人感受到耄耋少年在其博文中所说的标识性编目的优点。总体而言,可以说有见到编目手册的“亲切感”。
   
    如果要对这个行业标准提一些观感,那么就是以下四点:

1、国际出版界电子形式产品信息的标准是ONIX,美国国会图书馆在编目中也使用ONIX数据,我国的相应标准是否应当考虑与其兼容?

2、本标准同时采用MARC与DC,不会意味着出版者必须同时提交两种格式的数据吧?应当是只需一种格式,另一种格式经过转换即可。或许可以认为本标准同时提供两种格式转换的标准(附录1和附录2分别为CNMARC到DC和DC到CNMARC的对应表)。

3、元数据之间的转换不可避免。无论是图书馆现在所用MARC还是未来用某种元数据(不排除DC),只要向出版行业或图书馆提供格式转换软件,数据即具有通用性。不必拘泥于某一元数据格式。

4、标准如果要有长期的指导性,更不应将其局限在某一种元数据格式中。标准只要确定需要哪些项目(如同ISBD的八大项若干小项),至于用什么方式表现这些项目,是用2709格式文本、EXCEL表格、XML格式文本或是其他什么形式,肯定会随技术的发展而改变。

参见耄耋少年的相关博文:
出版界书目工作有大的进展(http://blog.sina.com.cn/u/4bd4c87b010006mw)
“2005年发布了《图书流通信息交换规则》 和CIP相比,明确使用CNMARC格式为信息交换格式”
“自动编目软件已开发成功  自动编目是图书馆界做不了的”
“从源头进行书目数据制作可实现更大范围的信息资源共享  真正做到一家编目,大家使用”

中文图书标识数据(征求意见稿)系列(http://blog.sina.com.cn/u/4bd4c87b010006my)
不知道为什么发布的是7-14,内容为“附录1.  中文图书标识数据使用CNMARC字段、子字段一览表”,而不发布正文部分。寻些CNMARC字段、子字段估计把很多人都弄晕了。

关于《中文图书标识数据》标准 2007-01-12(http://blog.sina.com.cn/u/4bd4c87b010006nj)
“这是出版信息化建设的重要举措。主要为实现在图书出版过程中自动编目规定一个数据内容。这样,在图书付印前,就可以产生符合书目记录要求的数据。此事已酝酿好几年,标准推行后,其中基本部分将以二维码形式印在书上,完整内容将在图书付印前在网上发布。以满足出版社、书商、图书馆与读者对书目信息的需求。”“因为是在电子文本上进行标识,而不是另行描述,所以称之为标识性编目。”

关于ECIP与自动编目(http://blog.sina.com.cn/u/4bd4c87b010006p5)
新制定的《图书流通信息交换规则》及正在制定的《中文图书标识数据》等中均采用CNMARC。

标识性编目概念的提出(http://blog.sina.com.cn/u/4bd4c87b010006qh)
“自动编目处理的是图书付印前的电子文本,对其具有的属性数据进行标识。在制定相关标准时,可要求一种新出版的图书必须具有那些属性数据,使图书制作者有所遵循,在属性数据项目的设置上按规范要求处理。”
“标识性编目不可能代替描述性编目,两者将长期共存。一是正式出版的图书方可先行标识,而文献收藏机构总有部分非正式出版的图书。二是对过去出版的图书,还只能进行描述性编目。”

标识性编目的特点(http://blog.sina.com.cn/u/4bd4c87b010006r8)
“4.真正做到一家编目,大家使用。由于出版单位在图书发行前即提供了标准化的书目数据,发行商与图书馆可不用另行编目了。”

努力做好标识性编目的事情(http://blog.sina.com.cn/u/4bd4c87b010006s7)
“文献编目是社会性事业,出版、发行、图书馆、情报所等都是图书目录的编制者,必须改变“图书馆目录”的狭隘观念。”
“数字图书馆需要解决自动编目的问题,但图书馆界做不了。不能因为图书馆界做不了就不加以研究。”
“加强元数据研究,主要是突破繁琐哲学,在新的条件下,探索可满足检索要求的元数据设置。”[理论与实践怕总是有距离的]

《资源描述与检索》(RDA)一统江湖?

(一)

    《资源描述与检索》(Resource Description and Access)第一部分草案公示后,在RDA讨论组引起了热烈讨论。目前公示截止期已到,最重量级的机构意见出台:

美国图书馆协会(ALA)意见(PDF文件;84页)
德国国家图书馆(DDB)图书馆标准办公室意见(PDF文件;15页)
英国图书馆与信息专家学会(CILIP)意见 (PDF文件;18页) [update 2006-4-19]

    ALA、CILIP(由英国图书馆协会LA及情报学家学会IIS合并组成)意见理所当然,DDB有什么关系?因为德奥两国也有改用AACR/RDA的意图(德奥两国改用MARC21格式)。

    RDA预计2007年定稿,2008年出版,另两部分草案预计也将在今年5月和10月相继出台公示。
    AACR:RDA联合修订委员会网站上的相关背景信息资料除英文版外,还有苏州大学图书馆陈家翠翻译的中文版(PDF文件)、法文版、西班牙文版。

(二)

    RDA与ONIX最近成立联合创新活动(RDA and ONIX Launch Joint Initiative),开发一个资源分类的共同框架。RDA自称“一部新的资源描述与访问的国际标准”,而ONIX则是“代表出版业的电子形式产品信息的国际标准”。
    美国国会图书馆联机目录利用ONIX数据已有多年,加强图书馆界与出版界在书目数据方面的协调,双方互利。
    有关ONIX,可以参见北京大学/CALIS联合编目中心喻乒乒在《现代情报》2006年第1期发表的“ONIX元数据标准2.1版与2.0版对比研究”。

(三)

    2007年,IFLA为拟议中的一部国际编目条例(an international cataloguing code for bibliographic description and access),将开完最后一次国际编目专家会议(IME-ICC)。IME-ICC是真正的系列“国际”会议,分别在欧美、南美、中东、亚洲、非洲五地召开,征求世界各地编目专家的意见,了解各国不同的编目实践。
    最近这一次将于IFLA2006年会期间在韩国首尔召开,应该是征求亚洲各国的意见。中国国家图书馆采选编目部主任顾犇是编目专业组的Secretary兼常务委员会成员,想必国家图书馆及其他国内编目领域专家也会积极参与。
    IME-ICC虽然连年开会,但“一部国际编目条例”用的是不定冠词+小写字母,同时IFLA也并没有按例设立编制委员会之类的机构,显示并非真的会有那么一个“条例”诞生。

(四)

    IME-ICC的积极主导者中,不乏AACR:RDA修订者的各级参与者。
    《英美编目条例》修订打算出第三版时,“资源描述与检索”原只是副题名,最终“扶正”,重要原因显然是要摆脱英语世界的局限。加上其扩大到图书馆领域以外的意图、独立于特定格式的目标,所以如果假设RDA就是IFLA的“an international catagloguing code”,大概不会差得太远。
    或许RDA日后真能一统江湖,成为纵揽各国、各类载体(包括网络)资源元数据描述的指导规则(用IFLA的话是“鼓励用作元数据应用框架中的内容标准”)。这也是我把description译作“描述”而不是“著录”的原因,后者图书馆专业味太浓,不易被广泛接受。


参见: