馆藏信息的不同表示方案

Diane Hillmann在博客上介绍她在ALA仲冬会议上的报告,看了三个报告,署名都是她、Gordon Dunsire和Jon Phipps三个人。第一个针对各种馆藏表示方案。报告的结论是:会有一个答案么?不见得,我们已不再生活在一个“通用”(one-size-fits-all)世界中。【这也是我近来的想法】

A Consideration of Library Holdings in the World Beyond MARC(有墙)
介绍现有及研制中的不同元数据方案中的馆藏信息表示法。她特别称赞了德国国家图书馆维护的一个馆藏标准文献维基:Collection of Holdings Ontologies, Vocabularies, Standards【注:现列出本体/词表12个,标准3个,格式3个,其他3个,与报告所提及的不尽相同】。

– 模拟世界中的馆藏标准
MARC21馆藏数据格式(简称MFHD–MARC 21 Format for Holdings Data)
NISO Z39.71-2006 http://www.niso.org/standards/z39-71-2006/
ISO10324:1997

– 进行中项目
德国国家图书馆:Scope of Holdings

ONIX连续出版物覆盖说明(ONIX for Serials Coverage Statement) – Version 1.0(2012年3月出版)——部分基于MFHD,较为复杂【注:一直以为,出版界的ONIX,元数据复杂程度绝不亚于MARC,但各类取值词表较MARC开放】

Schema.org的图书馆馆藏【注:即”书目扩展”:Holdings via Offer ,从其维基的词表建议(Vocabulary Proposals)页看,似乎此建议尚未提出;参见:解惑Schema书目扩展(2014年1月29日)】。共五个建议属性:
Library = seller
Call #/Shelf # = sku(Stock Keeping Unit)
Barcode = serial number
Shelving location = availableAtOrFrom
Item status = availability【注:有4种获得状态:可借InStock,借出中OutOfStock,订购中PreOrder,参考(馆内使用)InStoreOnly】

MMA【即作者的Metadata Management Associates】:基于MARC21书目格式的开放元数据注册(OMR, open metadata registry)

— 另外博文中说,她之前的报告人Rebecca Guenther讲了BibFrame的馆藏表示法。她说目前还非常简单,仅限于非连续出版物的简单馆藏,连续出版物馆藏如何集成到BF模型当拭目以待。【注:查到ALA仲冬会议网站的“馆藏信息论坛”(Holdings Information Forum),有2个报告的简介。其中说明BF馆藏信息采用注释(Annotations)及两个类HeldMaterial和HeldItem】
【注:BF注释类针对馆藏的子类“拥有资料”(HeldMaterial)有8个属性,其下再有子类“拥有馆藏”(HeldItem)有11个子属性。在类别视图中,这19个属性集中在“馆藏注释信息”(Holdings Annotation information)部分。参见:Bibframe.org的类与属性发布(2014年1月27日)】

via Metadata Matters: Talking Points Report / Diane Hillmann (February 3, 2014)

ONIX方面对BIBFRAME的评论

出版行业的元数据标准ONIX由EDItEUR维护。BIBFRAME模型草案发布后,EDItEUR的首席数据架构师Graham BellBIBFRAME邮件组中发表了评论,涉及到ONIX背后的概念模型<indecs>及其与FRBR模型的异同。翻译并[简评]如下:

[BIBFRAME] Comments on BIBFRAME draft model from EDItEUR (2012-11-29)

对报告概述的BIBFRAME模型草案,我们的第一反应很大程度上是正面的。然而,对于缺乏“单个复本”实体(以及BIBFRAME“实例”实体潜在的令人困惑的命名),我支持对此表示保留的评论。我想澄清一些报告中涉及的对ONIX和< indecs >的误解。
[第一句完全是客套话。本段其实是在质疑BIBFRAME类的设置及其名称。BIBFRAME有4个主要类,对应FRBR“单件”的不是独立的类,而是属于“注释”类;对应FRBR“载体表现”的,是“实例”类]

如同FRBR,<indecs>是一个概念模型。事实上,<indecs>包含两个基本模型:报告中引用的商务模型(“人们做东西、用东西、交易东西”),还有指代“东西”的“制作模型”或称“创作模型”(非常接近对应FRBR,尽管两者是完全独立开发的)。在目前语境下,相关的<indecs>是创作模型,基于3个而非4个概念层──抽象(Abstraction)(大约相当于FRBR内容表达,也明确是一个知识产权项目)、载体表现、单件。“内容表达”及相关的“定位”(Fixation),是抽象和载体表现间关系的方面。没有对应FRBR作品的。对熟悉的图书,“单件”就是单个复本,“载体表现”是一类相同的册(典型的以一个ISBN标识),“抽象”是许多潜在“载体表现”的抽象类,现在可以用一个ISTC(国际标准文本码)标识,可以与其他“抽象”形成多对多关系──这当然不只用于图书。
[<indecs>三层:抽象=内容表达-ISTC、载体表现、单件。对应BIBFRAME的三层是:作品、实例、注释中的馆藏]

在某种程度上,BIBFRAME草案近乎<indecs>。值得注意的是,<indecs>也预示了今天对关联数据的关注:“一项元数据即某人声称两个实体间存在的关系。” [1]

然而,<indecs>包含“单件”实体,而BIBFRAME模型草案没有,似乎是个奇怪的遗漏。我想说,必要时最好能够识别个别复本,能够分开适用于资源的个别复本的BIBFRAME“注释”,与适用于整个BIBFRAME“实例”的“注释”(“实例”组成所有复本的类)。
[注:BIBFRAME把“单件”归入“注释”之下]

如报告所说,图书ONIX(ONIX for Books)是部分基于<indecs>的,本身关注描述“载体表现”,尽管“载体表现”的很多属性无疑继承自“抽象”。图书ONIX最初由美国出版者协会(AAP)构想于1999年,2000年发布1.0版。进一步的联合开发经由EDItDUR实施,与书业研究组(BISG)和书业交流会(BIC)合作,但目前已由EDItDUR管理多年,由代表约20个国家用户组织的国际指导委员会领导,这些国家包括最近的中国、日本和阿拉伯国家。这是个真正的国际贸易标准,并且免费使用。
[ONIX有图书和连续出版物两种格式]

图书ONIX最广泛采用的是2.1版,发布于2003,之后只做过少量更新。最新发布的是3.0,有一个微小更新到3.0.1(增加了两个属性,用于非字母文字如日语汉字的人名或题名的语音排序)[2]。EDItEUR已经宣布2014年底为“日落之日”(sunset date),将减少对2.1的支持,鼓励所有实施者更新到3.0。

BIBFRAME模型草案与<indecs>的紧密校准(alignment),为商业元数据──以ONIX为例──与图书馆元数据之间更大程度的语义互操作提供了极大的希望。目前ONIX和MARC数据间的对照(Crosswalks)过于复杂,而BIBFRAME具有大大简化商业与图书馆数据交换的潜力。更大互操作的益处也可以延伸到音乐,如DDEX──相当于录音贸易中的ONIX──也基于<indecs>。
[或者说,既然BIBFRAME并没有采用FRBR,图书馆界也基于<indecs>算了?]

图书ONIX的关键价值之一是用于ONIX元数据的大量控制词表集(并且很大程度上在不同版本间共享)。EDItEUR将在未来数月内,(用SKOS)为每个术语发布权威的URI,如此这些术语将可被任何人用于发布关于图书或其他图书馆资源的关联数据。
[当年看ONIX,不知道其三层模型,感受最深的就是其词表的开放性,同一个“字段”,接受各种来源的词表,不像MARC格式那么严格规定采用一种。现在,RDA词表的出版还在磨磳中,ONIX词表已经要发布了──未来关联数据环境下,出版业将领先?]

连续出版物ONIX(ONIX for Serials)系列信息──最初由EDItEUR和NISO开发、现称订阅产品ONIX(ONIX for Subscription Products)──与图书ONIX相比,布署得相当有限,主要用于图书馆订阅代理者和主要期刊出版者之间的交流。相关信息标准特别用于如描述保留馆藏。

[1] The <indecs> Framework
[2] ONIX 3.0 Specification, Implementation and best practice guide, and latest controlled vocabularies

简化图书元数据工作流程

    2009年3月18-19日,OCLC举办“出版者与馆员会议”(Symposium for Publishers and Librarians),讨论图书元数据问题。美国信息标准化组织(NISO)和OCLC委托Informed Strategies总裁Judy Luther就此撰写白皮书,于会后出版,名《简化图书元数据工作流程》:

Streamlining Book Metadata Workflow / Judy Luther. Baltimore, MD : NISO, 2009. ISBN: 978-1-880124-82-6 (PDF, 22p)                   

    白皮书分析了图书供应链中,元数据创建、交换与使用的现状,以及未来的机会:

Stakeholder Perspectives
    图书供应链中元数据的利益相关人,也就是拥有图书元数据的机构,包括出版社、元数据供应商、批发商、书商、国家图书馆、本地图书馆与Google。
· 出版社:由于按需印刷技术的发展,出版社需要数字化其出版书目。大社提供XML化的ONIX数据,小社可能就是EXCEL表。
· 元数据供应商:包括图书登记机构(如Bowker和Nielsen Book)、编目服务机构(如英国的BDS)、成员组织(如OCLC和CrossRef)。
    Bowker年增加30万条记录,50%是ONIX,45%是EXCEL或其他电子格式,5%仍来自提交的纸质信息。
    英国的BDS外包了大英图书馆的CIP业务,每年提供7.5万记录,并提供ONIX到MARC21的对照。
    OCLC在美加两国有70个元数据专家与编目员,为特藏及出版社、书商创建记录。
    另外主要拥有期刊元数据的CrossRef有160万图书DOI,Serials Solution有100万电子图书记录。
· 批发商:最大的批发商Baker & Taylor和Ingram数据库年增长10%以上。虽然年出版新书约20万种,但新记录估计达70万,因为不同格式与版本要有独立的记录。
· 国家图书馆:LC专业编目员创建或升级了其35万记录中的80%,BL则为26万记录中的55%。据估计,WorldCat记录的65%是简编记录(难怪OCLC要开放“专家社区”,让更多编目专家帮助提升WorldCat的质量)。
· Google:Google数字化成百上万图书,在ONIX与MARC中取质量高的记录。有不少图书馆员在Google工作,Google也与OCLC合作。Google还在开发区分相关作品的算法

Metadata Workflow
    元数据工作流程,包括ONIX及MARC标准,以及书业与图书馆界在元数据质量控制方面的努力。

Opportunities
    未来的机会,包括标识符、主题表及最佳实践

· 标识符:包括作者、个别作品、丛编与相关作品,相当于编目界的名称规范、丛编题名规范,以及FRBR中的作品概念。
    唯一标识文本作品的“国际标准文本码ISTC – International Standard Text Code已是国际标准ISO 21047。
    作者标识符目前有“国际标准名称标识符ISNI – International Standard Name Identifier,还是草案(Draft ISO 27729)。
· 主题表:美国书业采用BISAC,50大类3000多小类;英国书业采用BIC;图书馆界采用LCSH、Sears及MeSH。
· 最佳实践:14项建议,特别注意的是:
第一条:使用ONIX与MARC的对照,方便创建CIP,并向出版社提供XML的MARC数据。
最后一条:探索把目前的ISTC和未来的ISNI标准集成到当前工作流程的方法,促进其被采纳。前者可用于创建作品间关联,后者可提供作者的规范控制。(或许未来的MARC书目记录中会加入ISTC,规范记录中会加入ISNI

    集中同一作品的不同内容表达、载体表现,对于出版发行者来说,可能比图书馆更为重视。因为多卷书(整套或各单册)、不同载体(如电子或纸质)、甚至不同装帧形式(如精装或平装),由于销售方式、销售价格不同,对书商来说需要使用不同的记录。这是以前没有想到过的ONIX数据与MARC数据的一个重要差别。

    无论如何,充分利用供应链上游的数据,将会是未来图书馆编目工作的发展方向。LC对书目控制未来工作组报告的回应,表明LC计划继续参与ONIX开发,并将关注从ONIX中抓取数据的机会。而OCLC的出版社ONIX元数据强化服务,从形式上看是为出版社提供服务,实质上也为WorldCat取得了大量由ONIX元数据转换而来的MARC数据。

    白皮书正文末是Judy Luther与30位业内代表交谈后,绘出的图书元数据交换图(p.17),反映图书供应链中各方及与ONIX、MARC、DOI三种元数据的关系,标示出对数据进行质量控制的部分。


参见:OCLC News Releases, 7 July 2009
Streamlining Book Metadata Workflow – NISO and OCLC Publish White Paper that Reveals Opportunities in the Book Supply Chain