简化图书元数据工作流程

    2009年3月18-19日,OCLC举办“出版者与馆员会议”(Symposium for Publishers and Librarians),讨论图书元数据问题。美国信息标准化组织(NISO)和OCLC委托Informed Strategies总裁Judy Luther就此撰写白皮书,于会后出版,名《简化图书元数据工作流程》:

Streamlining Book Metadata Workflow / Judy Luther. Baltimore, MD : NISO, 2009. ISBN: 978-1-880124-82-6 (PDF, 22p)                   

    白皮书分析了图书供应链中,元数据创建、交换与使用的现状,以及未来的机会:

Stakeholder Perspectives
    图书供应链中元数据的利益相关人,也就是拥有图书元数据的机构,包括出版社、元数据供应商、批发商、书商、国家图书馆、本地图书馆与Google。
· 出版社:由于按需印刷技术的发展,出版社需要数字化其出版书目。大社提供XML化的ONIX数据,小社可能就是EXCEL表。
· 元数据供应商:包括图书登记机构(如Bowker和Nielsen Book)、编目服务机构(如英国的BDS)、成员组织(如OCLC和CrossRef)。
    Bowker年增加30万条记录,50%是ONIX,45%是EXCEL或其他电子格式,5%仍来自提交的纸质信息。
    英国的BDS外包了大英图书馆的CIP业务,每年提供7.5万记录,并提供ONIX到MARC21的对照。
    OCLC在美加两国有70个元数据专家与编目员,为特藏及出版社、书商创建记录。
    另外主要拥有期刊元数据的CrossRef有160万图书DOI,Serials Solution有100万电子图书记录。
· 批发商:最大的批发商Baker & Taylor和Ingram数据库年增长10%以上。虽然年出版新书约20万种,但新记录估计达70万,因为不同格式与版本要有独立的记录。
· 国家图书馆:LC专业编目员创建或升级了其35万记录中的80%,BL则为26万记录中的55%。据估计,WorldCat记录的65%是简编记录(难怪OCLC要开放“专家社区”,让更多编目专家帮助提升WorldCat的质量)。
· Google:Google数字化成百上万图书,在ONIX与MARC中取质量高的记录。有不少图书馆员在Google工作,Google也与OCLC合作。Google还在开发区分相关作品的算法

Metadata Workflow
    元数据工作流程,包括ONIX及MARC标准,以及书业与图书馆界在元数据质量控制方面的努力。

Opportunities
    未来的机会,包括标识符、主题表及最佳实践

· 标识符:包括作者、个别作品、丛编与相关作品,相当于编目界的名称规范、丛编题名规范,以及FRBR中的作品概念。
    唯一标识文本作品的“国际标准文本码ISTC – International Standard Text Code已是国际标准ISO 21047。
    作者标识符目前有“国际标准名称标识符ISNI – International Standard Name Identifier,还是草案(Draft ISO 27729)。
· 主题表:美国书业采用BISAC,50大类3000多小类;英国书业采用BIC;图书馆界采用LCSH、Sears及MeSH。
· 最佳实践:14项建议,特别注意的是:
第一条:使用ONIX与MARC的对照,方便创建CIP,并向出版社提供XML的MARC数据。
最后一条:探索把目前的ISTC和未来的ISNI标准集成到当前工作流程的方法,促进其被采纳。前者可用于创建作品间关联,后者可提供作者的规范控制。(或许未来的MARC书目记录中会加入ISTC,规范记录中会加入ISNI

    集中同一作品的不同内容表达、载体表现,对于出版发行者来说,可能比图书馆更为重视。因为多卷书(整套或各单册)、不同载体(如电子或纸质)、甚至不同装帧形式(如精装或平装),由于销售方式、销售价格不同,对书商来说需要使用不同的记录。这是以前没有想到过的ONIX数据与MARC数据的一个重要差别。

    无论如何,充分利用供应链上游的数据,将会是未来图书馆编目工作的发展方向。LC对书目控制未来工作组报告的回应,表明LC计划继续参与ONIX开发,并将关注从ONIX中抓取数据的机会。而OCLC的出版社ONIX元数据强化服务,从形式上看是为出版社提供服务,实质上也为WorldCat取得了大量由ONIX元数据转换而来的MARC数据。

    白皮书正文末是Judy Luther与30位业内代表交谈后,绘出的图书元数据交换图(p.17),反映图书供应链中各方及与ONIX、MARC、DOI三种元数据的关系,标示出对数据进行质量控制的部分。


参见:OCLC News Releases, 7 July 2009
Streamlining Book Metadata Workflow – NISO and OCLC Publish White Paper that Reveals Opportunities in the Book Supply Chain

RDA的实施与MARC的未来

<![CDATA[

    AACR2是伴随着MARC而生的,随着RDA将替代AACR,似乎MARC也将随之消亡,但目前并没有替代MARC的标准出现。并且从MARC的发展历史来看,其演变或进化能力还是很强的,不会那么轻易地退出历史舞台。

    10月14日,美国信息标准组织(NISO)举办了一次网络会议(Webinar),Bibliographic Control Alphabet Soup: AACR to RDA and Evolution of MARC。会议主题是“AACR到RDA及MARC的演进”,Alphabet Soup不知如何翻译,大概算是扫盲吧?
    三个演讲(PDF下载)分别是:
Barbara Tillett: AACR2, RDA, VIAF, and the Future: From There to Here to There
Diane Hillmann: RDA Elements and Vocabularies: a Step Forward from MARC
William Moen: Data-driven Evidence for Core MARC Records(介绍2006年对5600万条WorldCat记录进行的MARC字段、子字段统计分析)

    会上有问答环节(Bibliographic Control Webinar Q&A),以下录有回复的问题,并摘录与MARC相关的回答:

1、有了RDA,MARC记录是否终将消失?如果是这样,MARC记录还会用多久?
Diane Hillman:我想MARC记录最终消失要很长时间(如我在会上提到的,未来会有一个地方放经专门交换的有损耗的格式)。关键是我们要开始展望一个真正好的结果,在MARC世界之外普遍化的、以RDA元素及词汇作为数据交换基础。
Barbara Tillett:RDA希望用于任何(元数据)方案或显示,因此RDA对MARC格式本身并不意味着什么。但是,RDA提供了到MARC21及其他方案的映射(对照表)……。RDA初版只有少数对照表(附录D是ISBD、附录E是MARC21,可能链接MODS/MADS及DC对照表),未来我们希望增加更多。
如今很多ILS厂商内部并不使用MARC21,只用于输入/输出书目与规范(有时还有馆藏)数据。只要OCLC及ILS厂商需要MARC格式交换数据,它就会存在,只是许多时候已经在用ONIX XML、MARCXML,也能够以XML处理MODS及MADS。IFLA正在为ISBD元素创建RDF XML元数据方案,很可能RDA元素也会以XML形式提供。如Diane所说,映射MARC21数据到未来的XML方案,在转换过程中无疑会丢失某些数据,但大部分仍是可用的。MARC21结构局限于建立什么关系与链接。

2、如何鼓励厂商利用RDA及FRBR的优势?

3、目前在图书馆学课程中是否教授RDA和FRBR?MARC还会教多久?
Diane Hillman
:我想只要我们交换MARC数据,就会继续教MARC,只是多半不会像现在这样教。
Barbara Tillett:至于继续教MARC21,它是编目史上一个绝对重要的部分,因此我希望未来很长时间内会被涉及,但希望编目员不必花太久时间继续学习MARC21编码。

6、(针对Moen的MARC字段调查)本研究是否考虑了记录创建日期相比较于核心(记录)标准出版日期?似乎许多记录是在核心标准制订前创建的。
Barbara Tillett
:很重要的一点!很奇怪的是,未来什么元素对用户重要这样的决定,要基于以前我们做了些什么。(以下对656字段统计数据有疑问)

7、MARC很大的一个原因是,它发展多年,为适应各界编目员的变迁与需求。RDA词汇如何回应改变需求?

10、RDA是否比MARC与AARC2更适应编目现实?

11、RDA与书目本体(Bibliographic Ontology)关系?

13、给Diane Hillmann的三个问题
1)在“为什么不是MARC”,你谈论的是MARC21句法(即ISO2709)还是MARC元素集?MARC元素集也可以用RDF/OWL。
Diane Hillman
:当然是前者,但也是后者,我觉得很难把二个问题当作完全独立的问题。一个困难是MARC设计为平面记录,不易翻译到图书馆之外所用的那种数据结构与编码。比如已经有很多尝试把URL加入MARC,但作为一种策略并不完全成功。还有其他限制也苦恼着MARC(比如每字段的子字段数)。面对MARC数据的遗产,对MARC元素集进行大修是个很困难的过程,有点像毁坏一所旧房子的内部却仍住在其中(我曾试过一间间房修,并不是只在这儿考虑!)我认可你关于RDF/OWL的观点,但不认为是一个特别令人满意的策略,并且在我所见的业界,对此并无多少热忱。
2)对不使用RDA的机构,未来的书目格式会是什么样的?MARC一直独立于特定的编目规则(尽管最初以AACR开发并常与之关联),CCO(编目文化对象)就是一个例子。
Diane
:我想永远不会有“一个”用于所有人的书目格式,但非常有意思的未来会包含这样的想法:我们不必局限于只用一个,我们可以根据所需、选取所用。图书馆已经使用多种格式(及变体),但仍未解决围绕这种多样性所产生的数据交换问题,而RDA元素与词汇的策略就是为此设计的。当然,CCO并非严格的书目格式,但我想它肯定会从RDA所采用的这种面向未来的策略(主要是注册并开放可得的RDA词汇)中获益。
Barbara Tillett:这个提问似乎混淆了交换书目数据的格式/方案与编目指引──编目指引独立于任何编码方案的任何显示格式。即使现存的基于AARC2的数据也可不用MARC编码。可以遵循AACR2、CCO指引或RDA指引,把书目数据放入MARC21记录,或者一种XML方案,或者其他。对于DACS、CCO、DCRM及其他指引的开发者,肯定有机会与RDA开发者合作,形成共享原则基础上的结果,共享概念模型并兼容未来。每个专业团体会有更颗粒化的方法适应自己的对象。
3)新的RDA格式如何与图书馆馆藏数据交互?使用不同类型的MARC信息使我们集成数据(即书目、规范、馆藏、分类、社区信息)。
Diane Hillman
:我对馆藏数据很有兴趣(我职业生涯的早年曾任期刊馆员和法律馆员)。不幸的是RDA并不能应付MARC用到的馆藏层次。我知道Extensible Catalog项目在转换大量MARC数据到RDA建立服务时,正试图加以解决,馆藏肯定是已得到关注的领域。考虑到大量的数据,我想你所提到的其他种类信息也会得到关注(或正被关注)。我会觉得,在基于更广泛结构与编码标准的世界,使用“家族式”集成书目标准的MARC概念或许并不理想。如LC的LCSH新网站使用SKOS(简单知识组织系统)作概念词汇,如同OCLC的新DDC顶层,以及NSDL注册。FRAD正在出现,表达名称规范。我一直是MARC社区信息格式的粉丝,悲哀的是它不大看到被采用。一个问题是它本质上并非“书目”,因而使其未来不那么确定。我很乐意看到它在Web世界中“被重新发现”并重设想。
Barbara Tillett:RDA不是一种格式,它是一套编目指引,用以识别我们希望在书目中控制事物的特征。如果你仍使用ILS,而开始根据RDA描述事物,那么在可预见的未来,你仍会用MARC书目记录及MARC馆藏记录(及MARC规范记录)。

14、RDA是否/如何提高编目效率?
Diane Hillman
:如同最初MARC格式通过扩大目录记录的可获得性与复用,为图书馆提高效率,通过走出图书馆寻求数据与共享机会,RDA同样具有再次为图书馆提高效率的潜力。我认为用MARC,数据几乎全部由人工创建,我们已经达到了所能达到的极限,如果近距离看看我们之外的世界所做的,就可以看到]]
>

关于MARC的思维导图

    苏西(Suzie)在博客上写了她对AACR, LOC, DDC, FRBR, CCO, MARC, RDA的理解,每种都有一串提纲契领式的描述。撷取部分关于MARC的:

    * 自1960年代LC开发出来后,目前是第21次修订 [指书目格式吧:MARC21 Format for Bibliographic data, 1999 edition, update no.9 (October 2008)]
    * Pre-web, pre-a lot of things.
    * 从001到880,有200个字段 [计算了一下,目前有效的书目数据字段从001到887共212个,加上以前曾经有的,大致是249个]
    * 800 subfields [显然不止这个数]
    * 4%的字段占80%的记录 [出处待考。还算正常分布吧,尾巴可能长了点]
    * OCLC的一项研究,每5600万记录才有一条使用856字段 [按Thomas Hickey的2007年数据是3.64%,2009年数据是7.79%,有链接的记录远不止这个数]
    * OCLC高级程序经理Roy Tennant说“MARC必须死” [最近他老人家又说了:MARC不必要的复杂。但LibraryThing的Tim显然不这么认为,参看他在Tennant博文下的留言]
    * 除图书馆外,没有机构用它 [Tim显然很喜欢它]
    * “有损耗的输出格式”(Lossy Output Format)[出处未知]
    * 原打算作为传输格式(a transfer format)!!!最终成了元数据方案(a metadata scheme) [近来正在想这个]

    Keven在元数据讨论组上转发Suzie博文时用了mindmap一词,借来用做标题了。

参见:
How to Catalog a Hiccup: The difference between AACR, LOC, DDC, FRBR, CCO, MARC and RDA(需备梯)
WorldCat书目记录2009统计分析 (2009-10-14)
Tennant: Digital Libraries: The Unused Complexity of MARC (October 14, 2009)
MARC Must Die / By Roy Tennant. Library Journal, 10/15/2002