Diane Hillmann谈书目框架转换行动

Diane Hillmann在我看来是一位理想主义的行动家。看到她和Jon Phipps的博文,谈LC的书目框架转换行动,涉及理想中的元数据世界未来。尽管他们的设想未必成为现实,但可解不少困惑,于是全文翻译。[少许地方仍然以方括号加感想,粗体也为本人所加]
Jon Phipps, Diane Hillmann, and Stuart Sutton
OMG项目团队成员,从左到右:Jon Phipps, Diane Hillmann, and Stuart Sutton

———-如果我们被问到———-
Metadata Matters: If We Were Asked (2012-7-4)

如果被问到(有时正是这样)我们对书目框架转换行动结果的看法,我们的回答会强调其技术和社会方面。

首先,鉴于若干不同场所的技术发展,考虑我们现在可以做的是把关联开放数据引入我们相对封闭的世界。一些具体建议:能够共享元数据,不仅是以单一共同“取值词表”表达的,而且是采用多种不同取值词表、以RDF、OWL/RDFS、RDFa、微数据及其他工具表达与发布的;[ONIX是采用兼容不同取值词表的很好例子];有指定使用这些“语义”砖块(DC应用纲要,以及W3C和DCMI的新兴溯源provenance规范)的方法,让机器使用、处理和发布数据,不需要中央启用节点;具有在现有与预期元数据方案间映射的技术与策略,彻底催毁社区之界的樊篱。

这是图书馆相关元数据的后MARC世界,原生于我们元数据的格式不再是其最重要的特征;无需做有损映射,去转换数据服务于不同需求;共享鲜有(最终没有)障碍。MARC所代表的巨大的价值──数十年来为回应大量使用案例而建立的语义(均完整存档于MARBI网站)──在我们移向一个不同领域时仍然极其重要。然而MARC语法产生自20世纪中期的需求,维持它所需的紧密共识模型,不再适用于当前及未来全球图书馆界的需求。[各做各的?]

这里适用一般的解释:有些技术并未完全到达黄金时期,然而在我们所生活的世界中,“完成的”更有可能指某些死去的,而非标准或工具开发的目标。我们个人非常熟悉的领域(无可惊讶)是词表管理和映射的补充领域。第一个是上线并运行为开放元数据注册(OMR)(尽管“持续的改进”引擎太过厌烦);第二个,映射是我们非常感兴趣的,已产生文章、论文及演讲(文后选择了部分),当然还有太多的博文(包括本文)和讨论组帖子。
我们相信,OMR及开发中的映射能力合在一起,能让遗产数据高效、损失最小地转向开放关联数据世界,并在处理中强化可得到的有用数据选项。*

在技术闪光中通常被忽视的是,有可能重新整合以往由于技术局限(及其他原因)而被撕裂的社区。在我们共同的过去,图书馆界创建数据时,基于一致使用AACR2和MARC的平台共享约定。某些图书馆社区──最突出的是法律和音乐──愿意妥协于更大图书馆社区内。其他如艺术图书馆和博物馆界及档案馆,则打破图书馆共识,另行开发更好地满足其需求的数据标准[曾经ISBD中是有档案的]。然而这些专业化标准,已在巨大的MARC谷仓之外,导致更多的谷仓。

如果意图是“取代MARC”(在某种程度上),那就是重置(re-placing)MARC及其内在局限,由我们世界的中心回到芸芸众生中的一员。转换的价值还在于扩展的能力,由半世纪前MARC形成的数据共享环境,到包括博物馆、出版社和档案馆在内的更广泛的感兴趣社区。满足消解这些谷仓、使我们的数据易于理解并以宿主方式重用的目标,将有助于开启我们已致力多年的“数据网”。Eric Miller [LC选择的MARC终结者]在Anaheim[ALA年会]书目框架更新会上解释得相当好:通过移到关联数据世界,我们实际上从定义上超出了图书馆/档案馆/博物馆(LAM)世界──走出去是一个相当大的世界。然而,与LAM界整体协作达到那儿,我们获益良多,……。仅仅把我们的视野局限在一个“MARC关联数据模型”可能是一个重要的起点,但低于我们的愿景需要延伸之所在

事实是,MARC在很长时间里不会离开,如果不是永远的话。图书馆如何转换有很多变数,取决于机构支持、短期和长期需求,以及现有的合作关系。由MARC转向关联数据世界的过程已经开始。RDA及其RDF词表是一个开端,如同MARC的完整RDF版(http://marc21rdf.info/)[也是OMR的成果]。多年来的ALA会前会、演讲及讨论已为这些改变准备了土壤。但是我们需要一个计划,采取某些实际步骤──这个步骤包括那些在战壕里工作却没有得到很大支持、而仍义无反顾前行的小组。书目框架转换行动不只是作为技术专家们的操场,因为在大多数情况下,并非技术制约着我们──是机构的惯性,以及难以找到使我们不相互对立的办法。我们需要的计划要平衡技术与社会、快速见效与长远势头、速度要求与费时且需构建支持的公开讨论

在我们看来,我们具有的是一个机会,去逆转长期以来元数据界的割据趋势,创造明显具有相似的挑战与利益的三个社区[LAM]间较少樊篱、更多数据交换的未来。我们认为,利用已极大改变的技术环境做这件事的时间已经到来。

* “哦,你只不过在此吹响自己的号角”──如此回应本博文很容易,也确实如此。但我们这么做是因为相信这很重要,而不仅仅是因为我们在做而相信其重要。我们相信我们已做和将做工作的价值,作为书目框架转换行动讨论的一部分,我们看到了很大的相关性。

264字段开始启用

4月份RDA的MARC全记录实例发布,其中出版发行只用264字段,没有260字段。后来去MARC标准网站查了下,264字段于2011年新出,但260字段最后的历史部分,也没有260字段被替代之类的说明语。

5月份OCLC发布2012年MARC更新公告(Technical Bulletin 261: OCLC-MARC Format Update 2012),强烈建议在没有指南的情况下,不使用新的264字段。

6月11日,合作编目项目(PCC)发布了264字段指南(PCC guidelines for the 264 field [Word: 45 KB])。OCLC及时跟进,并更新了前公告页面,宣布现在可以按照该指南使用264字段。

264字段属于MARC为RDA所做的更新之一,对应RDA 2.7-2.11:
⊙ 新书目格式字段: 264(生产、出版、发行、制造及版权说明)
第1指示符:序列说明(# 不适用/无信息提供/最早 2中间 3当前/最新)
第2指示符:实体功能(0生产 1出版 2发行 3制造 4版权日期)
子字段$a、$b、$c与260相同

Basic guidelines 基本规定:
1、所有新原编或新认证RDA记录,使用264字段
2、对多部分专著、连续出版物和集成资源的现有RDA记录,在生产、出版、发行和制造元素变化时,使用一条新的264字段,取相应第1指示符。
3、对多部分专著、连续出版物和集成资源的RDA记录的现有260字段,当增加附加264字段时,如果编目员有足够信息用以选择恰当的第2指示符值,可考虑改为264字段。
4、对多部分专著、连续出版物和集成资源的前RDA记录,最好不改变现有260字段为264字段。在前RDA记录的生产、出版、发行和制造元素变化,更新时允许由编目员决定增加260或264字段。
5、基于第1指示符值重复264字段时,遵循如下264字段可重复规定。

PCC guidelines for MARC 21 repeatable 264 field 264字段可重复规定(略)

如TSLL TechScans博主所提示的,“编目员要确保其ILS认识264为合法字段,且要检查这个新字段在联机目录中如何显示”。其所在馆的OPAC,264不出现在简要显示页面,必须做某些调整。
面对西文文献下载中越来越多见的RDA记录,面对RDA全面实施的临近,国内图书馆集成系统也必须对MARC21的设置做出调整,而这需要编目员主动去关心,并联系系统管理员──通常编目员很少注意OPAC界面。

参见:TSLL TechScans: PCC issues guidelines for the 264 field(有墙)

RDA第3章机器可操作数据元素(讨论稿)

RDA真是永远的beta版。2010年中推出的时候,就是个未完成版(缺少第三组实体相关部分)。两年过去,未完成的仍未完成,已完成的又在修订,2012年4月发布了第一次修改。

刚看到ALA/ALCTS/CC:DA(编目委员会)RDA第3章机器可操作数据元素工作组5月提出的讨论稿(Machine-Actionable Data Elements in RDA Chapter 3: Discussion Paper (May 2012),14页),感觉向关联数据迈进的幅度很大。当然,还只是讨论稿,如果考虑到MARC会被取代,那么被接受的可能性还是很大的。

该工作组的主要任务是重新评估RDA第3章中包含量化信息的数据元素的结构,主要涉及3.4数量、3.5尺寸,也考虑到3.16声音特征、3.17放映特征、3.19数字文化特征。提出的模型由三部分组成:测度的“方面”Aspect、“单位”Unit及数值“量”Quantity,也即将原来的一个子元素拆分为三个。

从讨论稿中取两个例子就一目了然了:
地图
现文本描述:20 × 30 cm, on sheet 25 × 35 cm
建议:
content/carrier: map
Aspect: width
Unit: cm
Quantity: 20
Aspect: height
Unit: cm
Quantity: 30
carrier: sheet
Aspect: width
Unit: cm
Quantity: 25
Aspect: height
Unit: cm
Quantity: 35

乐谱
现文本描述:1 score and 3 parts (19 pages)
建议:
Aspect: extent/number of subunits
Unit: score
Quantity: 1
Aspect: extent/number of subunits
Unit: parts
Quantity: 3
Aspect: extent/number of subunits
Unit: pages
Quantity: 19

设计的准则是,从文本描述变为可操作的内容,可提供如下功能:
· 易于为确定区分内容进行匹配
· 按大小、尺寸或其他准则排序
· 基于数量对媒介材料做更细粒度的分面 [充分发挥注册的取值词表的作用]
· 为自动确定数量提供更佳途径
· 以不同语言提供文本值与标签 [且没有不同语言语法的牵拌,更简单]
· 能够为特定用户精简及条列更复杂的数量信息(类似与MARC馆藏信息)[正翻译第3章,对此深有体会]
· 录入时数据有效性检查 [形式上检查是否遗漏]

对RDA元素集的修订,讨论稿提出了四个选项,单一数量类(”extent” class)最清晰。附录II给出了本建议的四幅RDF图。

看时的感觉就是高人设计,看到讨论稿最后的工作组成员,原来阵容如此强大:
Submitted by Peter Rolla (chair) on behalf of the Task Force: John Attig, Karen Coyle, Gordon Dunsire, Diane Hillmann, Randall Roeder, Paul Weiss, and Kathy Winzer.

via The Bib Blog: Machine-Actionable Data Elements in RDA Chapter 3: Discussion Paper (June 22nd, 2012)

[update 2014-2-7] 2012年11月JSC会议结果(2012 JSC Meeting Proposals and Discussion Papers: Outcomes),对此讨论稿(6JSC/ALA/17)的结论是:要求ALA开发建议;刚看到2013年11月JSC会议结果(2013 JSC Proposals and Discussion Papers – Actions Taken by JSC),原来2013年弄了一个扩大范围的讨论稿(6JSC/ALA/Discussion/1   Machine-Actionable Data Elements in RDA: Discussion Paper (2013)),对此讨论稿的结论是未被接受,将继续修订,并提交给JSC RDA/ONIX框架工作组。——讨论稿原文见:JSC Working Documents