日志标签 ‘元数据’

《中文图书标识数据》(征求意见稿)观感

2007年1月21日

    耄耋少年博客新开,一连发表了“标识性编目”系列博文,使我对此问题有了一定的了解。规范出版行业需要提供的书目信息,不管从哪个方面来说都是很有必要的,即使这样做的目的是让图书馆的大部分编目员失业。

    正好有幸看到了中华人民共和国新闻出版行业标准《中文图书标识数据》(征求意见稿),觉得特别困惑的就是其主体“4  标识数据”采用CNMARC名称(字段、子字段)与DC元数据表达各著录项。该标准长达56页,说其繁复程度不亚于编目手册,或许也算不得夸张。而“附录3.  中文图书标识数据应用实例”,看上去就是一条常见的CNMARC记录,一点未体现出或者说让人感受到耄耋少年在其博文中所说的标识性编目的优点。总体而言,可以说有见到编目手册的“亲切感”。
   
    如果要对这个行业标准提一些观感,那么就是以下四点:

1、国际出版界电子形式产品信息的标准是ONIX,美国国会图书馆在编目中也使用ONIX数据,我国的相应标准是否应当考虑与其兼容?

2、本标准同时采用MARC与DC,不会意味着出版者必须同时提交两种格式的数据吧?应当是只需一种格式,另一种格式经过转换即可。或许可以认为本标准同时提供两种格式转换的标准(附录1和附录2分别为CNMARC到DC和DC到CNMARC的对应表)。

3、元数据之间的转换不可避免。无论是图书馆现在所用MARC还是未来用某种元数据(不排除DC),只要向出版行业或图书馆提供格式转换软件,数据即具有通用性。不必拘泥于某一元数据格式。

4、标准如果要有长期的指导性,更不应将其局限在某一种元数据格式中。标准只要确定需要哪些项目(如同ISBD的八大项若干小项),至于用什么方式表现这些项目,是用2709格式文本、EXCEL表格、XML格式文本或是其他什么形式,肯定会随技术的发展而改变。

参见耄耋少年的相关博文:
出版界书目工作有大的进展(http://blog.sina.com.cn/u/4bd4c87b010006mw)
“2005年发布了《图书流通信息交换规则》 和CIP相比,明确使用CNMARC格式为信息交换格式”
“自动编目软件已开发成功  自动编目是图书馆界做不了的”
“从源头进行书目数据制作可实现更大范围的信息资源共享  真正做到一家编目,大家使用”

中文图书标识数据(征求意见稿)系列(http://blog.sina.com.cn/u/4bd4c87b010006my)
不知道为什么发布的是7-14,内容为“附录1.  中文图书标识数据使用CNMARC字段、子字段一览表”,而不发布正文部分。寻些CNMARC字段、子字段估计把很多人都弄晕了。

关于《中文图书标识数据》标准 2007-01-12(http://blog.sina.com.cn/u/4bd4c87b010006nj)
“这是出版信息化建设的重要举措。主要为实现在图书出版过程中自动编目规定一个数据内容。这样,在图书付印前,就可以产生符合书目记录要求的数据。此事已酝酿好几年,标准推行后,其中基本部分将以二维码形式印在书上,完整内容将在图书付印前在网上发布。以满足出版社、书商、图书馆与读者对书目信息的需求。”“因为是在电子文本上进行标识,而不是另行描述,所以称之为标识性编目。”

关于ECIP与自动编目(http://blog.sina.com.cn/u/4bd4c87b010006p5)
新制定的《图书流通信息交换规则》及正在制定的《中文图书标识数据》等中均采用CNMARC。

标识性编目概念的提出(http://blog.sina.com.cn/u/4bd4c87b010006qh)
“自动编目处理的是图书付印前的电子文本,对其具有的属性数据进行标识。在制定相关标准时,可要求一种新出版的图书必须具有那些属性数据,使图书制作者有所遵循,在属性数据项目的设置上按规范要求处理。”
“标识性编目不可能代替描述性编目,两者将长期共存。一是正式出版的图书方可先行标识,而文献收藏机构总有部分非正式出版的图书。二是对过去出版的图书,还只能进行描述性编目。”

标识性编目的特点(http://blog.sina.com.cn/u/4bd4c87b010006r8)
“4.真正做到一家编目,大家使用。由于出版单位在图书发行前即提供了标准化的书目数据,发行商与图书馆可不用另行编目了。”

努力做好标识性编目的事情(http://blog.sina.com.cn/u/4bd4c87b010006s7)
“文献编目是社会性事业,出版、发行、图书馆、情报所等都是图书目录的编制者,必须改变“图书馆目录”的狭隘观念。”
“数字图书馆需要解决自动编目的问题,但图书馆界做不了。不能因为图书馆界做不了就不加以研究。”
“加强元数据研究,主要是突破繁琐哲学,在新的条件下,探索可满足检索要求的元数据设置。”[理论与实践怕总是有距离的]

《资源描述与检索》(RDA)一统江湖?

2006年4月16日

(一)

    《资源描述与检索》(Resource Description and Access)第一部分草案公示后,在RDA讨论组引起了热烈讨论。目前公示截止期已到,最重量级的机构意见出台:

美国图书馆协会(ALA)意见(PDF文件;84页)
德国国家图书馆(DDB)图书馆标准办公室意见(PDF文件;15页)
英国图书馆与信息专家学会(CILIP)意见 (PDF文件;18页) [update 2006-4-19]

    ALA、CILIP(由英国图书馆协会LA及情报学家学会IIS合并组成)意见理所当然,DDB有什么关系?因为德奥两国也有改用AACR/RDA的意图(德奥两国改用MARC21格式)。

    RDA预计2007年定稿,2008年出版,另两部分草案预计也将在今年5月和10月相继出台公示。
    AACR:RDA联合修订委员会网站上的相关背景信息资料除英文版外,还有苏州大学图书馆陈家翠翻译的中文版(PDF文件)、法文版、西班牙文版。

(二)

    RDA与ONIX最近成立联合创新活动(RDA and ONIX Launch Joint Initiative),开发一个资源分类的共同框架。RDA自称“一部新的资源描述与访问的国际标准”,而ONIX则是“代表出版业的电子形式产品信息的国际标准”。
    美国国会图书馆联机目录利用ONIX数据已有多年,加强图书馆界与出版界在书目数据方面的协调,双方互利。
    有关ONIX,可以参见北京大学/CALIS联合编目中心喻乒乒在《现代情报》2006年第1期发表的“ONIX元数据标准2.1版与2.0版对比研究”。

(三)

    2007年,IFLA为拟议中的一部国际编目条例(an international cataloguing code for bibliographic description and access),将开完最后一次国际编目专家会议(IME-ICC)。IME-ICC是真正的系列“国际”会议,分别在欧美、南美、中东、亚洲、非洲五地召开,征求世界各地编目专家的意见,了解各国不同的编目实践。
    最近这一次将于IFLA2006年会期间在韩国首尔召开,应该是征求亚洲各国的意见。中国国家图书馆采选编目部主任顾犇是编目专业组的Secretary兼常务委员会成员,想必国家图书馆及其他国内编目领域专家也会积极参与。
    IME-ICC虽然连年开会,但“一部国际编目条例”用的是不定冠词+小写字母,同时IFLA也并没有按例设立编制委员会之类的机构,显示并非真的会有那么一个“条例”诞生。

(四)

    IME-ICC的积极主导者中,不乏AACR:RDA修订者的各级参与者。
    《英美编目条例》修订打算出第三版时,“资源描述与检索”原只是副题名,最终“扶正”,重要原因显然是要摆脱英语世界的局限。加上其扩大到图书馆领域以外的意图、独立于特定格式的目标,所以如果假设RDA就是IFLA的“an international catagloguing code”,大概不会差得太远。
    或许RDA日后真能一统江湖,成为纵揽各国、各类载体(包括网络)资源元数据描述的指导规则(用IFLA的话是“鼓励用作元数据应用框架中的内容标准”)。这也是我把description译作“描述”而不是“著录”的原因,后者图书馆专业味太浓,不易被广泛接受。


参见:

2006年IFLA年会编目专业组征文

2005年10月9日

    IFLA年会2006年将在韩国首尔(汉城)召开。编目专业组现在开始征集专题论文。论题:“编目合作:原则、计划与出版者”。具体内容为:

  • 从数字资源中抽取数据,用于书目或其他元数据记录
  • 使用来自数字资源出版者的数据,创建书目或其它元数据记录
    今后真的不用编目员来编目了

征文信息如下(来自邮件组IFLA-L,网站存档略迟于邮件发送)

World Library and Information Congress
72nd IFLA General Conference and Council
Seoul, 20-24 August 2006

Cataloguing Section
Division for Bibliographic Control

CALL FOR PAPERS
Programme Theme: Cataloging Partnerships: Principles, Projects, and Publishers

The IFLA Cataloguing Section (IFLA CATS) invites cataloguers and others involved in the following projects or activities to express their interest in making presentations at the section&aposs programme in Seoul:
    – extracting data from digital resources for use in bibliographic or other metadata records;
    – using data from publishers of digital resources in creating bibliographic or other metadata records.

Send a detailed abstract (1 page or at least 300 words) of the proposed paper (must not have been published elsewhere) and relevant biographical information of author(s)/presenter(s) by 15 December 2005 via email to:
 Judy Kuhagen
 Incoming Chair, Cataloguing Section
 jkuh@loc.gov 

The abstracts will be reviewed by members of the Cataloguing Section&aposs Standing Committee. Successful proposals will be identified by 31 January 2006.  Full papers will be due by 15 April 2006 to allow time for review of papers and preparation of translations; papers should be no longer than 20 pages.  15-20 minutes will be allowed for a summary delivery of the paper during the Cataloguing Section&aposs programme.

Please note that the expenses of attending the Seoul conference will be the responsibility of the author(s)/presenter(s) of accepted papers.

 

OCLC软件竞赛结果

2005年6月25日

    时间过得很快,今天见到OCLC软件竞赛结果公布,找我以前的报道,发现时间竟然已经过去四个多月了。
    得奖者是美国的Dazhi (David) Jiao,看姓名是个来自大陆的华人。 获奖作品是一个OPAC,在显示详细书目记录时,包含收割的相关文献一览表(an OPAC that includes a ranked list of harvested citations when a detailed bibliographic record is displayed.)。评委认为其作品创新集成了OPAC与收割的元数据,并充分利用了OCLC的开放软件(an innovative way of integrating OPACS with harvested metadata and made good use of open source software from OCLC)。

    OCLC还提供了相关信息链接。获奖作品的链接如下:
Dazhi Jiao&aposs CAT OAI; an OPAC System with OAI Integration
http://129.79.32.196:8080/catoai/index.jsp

    这个试验系统目前只包括物理学相关内容。检索结果一览表如同普通OPAC,但具体书目的详细信息包含按相关度排序的数字资料,这些资料由OAI数据库中收割而来。
    “The Handbook of plastic optics”一书的详细书目信息,首条数字资源的详细信息,包括名称、URL、作者、内容提要、主题等信息。直接链接到相关数字资源,是一篇全文文献,感觉很不错。

    OCLC打算今后每年举办一次这样的竞赛。

 

无处不在的元数据

2005年3月25日

    印象中以前数据库的”字段”,现在都称为元数据了,各行各业都在研制元数据,电子商务、企业信息、政务资源、统计指标、档案管理、电子公文、信用信息……。原来生成/修改日期、访问权限之类计算机文件的”属性”,也变成了元数据,如MP3文件的元数据ID3,定义了作曲家、词作者、演唱/演奏者等数十个属性;更有数码相片文件的元数据复杂到了定义拍摄的经纬度和海拔。
    曾以为Google的关键词检索只需要人工智能分析词间关系,组成一个词表(或许是语义网、本体什么的?),不需要元数据。但看着Google近半年接两连三地推出各种专类检索工具/功能,学者Google Scholar的引文、电视Google Video的节目预报、地图Google Maps的企事业单位信息、电影(movie:命令)的影评与影院信息,以及最近引起广泛争议的Google工具条的网页自动链接AutoLink功能,终于明白其实在Google简洁检索界面的背后,肯定蕴藏着极其复杂的元数据,用以组织机器搜集到的看似无序的信息。

    我们的机读目录MARC有差不多40年历史了,或许可称得上元数据的前辈。定义了那么多字段、子字段,虽然不是都要用,看上去也很烦。于是不满意MARC者设计出都柏林核心元数据DC,来代替烦琐的MARC,只用十多个元素就够了,很爽。可渐渐发现不够用,于是加修饰词,先是标准修饰词,然后又可以自定义修饰词,现在弄得跟MARC也相去不远了。
    其实当深入到事物的内部,必然越分析越细致,需要的元素也就越多,就好象前面所举MP3和数码相片元数据的例子。看出版商描述图书信息的元数据ONIX,近200个元素(tag),与MARC相比,其烦琐程度可说是有过之而无不及。
    看来,在今后相当长的一个时期里,综合描述各类文献元数据的MARC还是很安全的――不会被淘汰。或许磁带时代顺序读取的产物2709格式,会因与时俱进而被XML或别的什么格式所代替,但MARC的基本字段、子字段应该不会有太大的变化。