编目精灵III – 第 374 页 – 曾经的编目员，继续网络闲游

关联数据词表管理

美国国家信息标准组织（NISO）的《信息标准季刊》（ISQ）自2011年起转为开放获取期刊，过刊也逐步回溯上网提供。最新一期为特刊《图书馆档案馆博物馆关联数据》：
Information Standards Quarterly. Vol. 24, Issue 2/3 (Spring/Summer 2012). ISSN 1041-0031
Topic: Linked Data for Libraries, Archives, and Museums

本期由纽约大学元数据服务馆员Corey Harper担任客座内容编辑，专题文章“关联数据词表管理”：
Dunsire, Gordon, Corey Harper, Diane Hillmann, and Jon Phipps. Linked Data Vocabulary Management: Infrastructure Support, Data Integration, and Interoperability. Information Standards Quarterly, 2012 Spring/Summer, 24(2/3):4-13.

对全文意思把握不住。大致理解是：得到应用的元数据词表越来越多，在关联数据环境下其对照crosswalk/映射mapping/校准alignment更为复杂，需要探讨其管理问题。
以下只摘录若干事实，小标题为自拟提示，非照录原文。

应用纲要
(p.5) 2000年最早公开提出：Heery, Rachel, and Manula Patel. Application Profiles: Mixing and Matching Metadata Schemas. Ariadne, issue 25, September 24, 2000 [从该文看，源于UKOLN的DESIRE项目，希望在DC-8上推广]
(p.6) 实践则早自1999年：UKOLN DESIRE元数据注册，欧盟委员会资助的Schemas Project及其后继者CORES。

元数据注册
(p.6) 上述工具以registries著称。2002年DCMI发布其自己的元数据注册，由Heery和Wagner创始开发，其工作激发了很多其他注册，包括“开放元数据注册”。当前版DCMI注册是日本元数据基础体系注册、JISC信息环境元数据体系注册的基础。
(p.7) DCMI注册社区成立于1999年，成为讨论元数据注册的开发、管理和功能需求的集中地。2009年，UKOLN联合DCMI注册社区，进行一项元数据注册用户和所有者的调查，确认当前词表管理与注册间互操作的系统实践和功能需求。调查结果未出版，文中提供部分图表。

开放元数据注册(OMR)
(p.6) 始于NSF资助的美国国家数字图书馆项目──NSDL注册。现在扩展到图书馆界，存有RDA词表，IFLA的ISBD、FR家族模型，MARC21的RDF实验版。目前正致力于词表映射。
(p.8) RDA命名空间创建于2008年。截至2012年7月，元素集和很多取值词表仍处于不定状态。但由于状态和开发史可见，允许实验应用。
RDA命名空间的开发直接刺激了IFLA方面考虑其标准在语义网使用的潜力，因为RDA基于FR家族。ISBD正开发一个DC应用纲要，说明一条构造良好的ISBD的需求，包括元素的必备性、可重复状态，集成元素为高级说明，及取值词表来源。IFLA还在考虑翻译元素集和取值词表的最佳实践，因为它运作于多语言环境，其活动有7种官方语言。部分ISBD和FR家族命名空间已由英语译为西班牙和克罗地亚语。
复用RDA元素被排斥[?]，因为自然流程是由模型细化应用。反之，ISBD不复用FR元素，因为对两个标准间的语义关系还没有完全一致的认识。受到校准ISBD和RDA元素以改进互操作工作的激励，已经开始讨论在IFLA和其他社区元数据元素间映射不受约束的命名空间：Dunsire, Gordon. Unconstrained namespaces. In: IFLA Namespaces Technical Group, IFLA Classification and Indexing Newsletter, no.45 (June 2012)（PDF）

欧洲国家图书馆发布目录数据的RDF表述
(p.8) 复用更为领域中性的词表DC、BIBO、FOAF，如LIBRIS、BL、剑桥大学。德国国家图书馆复用DC、FOAF、SKOS及RDA词汇。
(p.9) 特别是剑桥开放元数据项目（COMET），把所有转换工具、代码、过程均置于开源许可下。

元数据映射举例
(p.9) 图3：（书目资源的）数量RDA本体图（ISBD、FRBR、RDA、BIBO、MARC21、DC）

词表“校准”(Alignment)和DCMI词汇管理社区
(p.11) Michael Bergman在DC-2010的主旨报告，从词表激增的势头没有缓和的迹象，看到了对词表校准、同参引(co-referencing)和互操作的新兴需求。对“校准”的关注在某种程度上类似于已有的、在基于记录（通常为XML）的元数据结构间开发对照表(crosswalk)。词汇校准，识别个别元数据元素间的对应及其他关系类型，帮助这些属性应用于其来源词表环境之外。
然而，开放关联数据环境概念的扩展，我们面临的情况比开始所见的更为复杂。……DC-2011会前会……导致了DCMI词汇管理社区的成立。

关联开放词汇项目(LOV)
(p.11-12) Bernard Vatant及其团队收集了现有属性词表信息，探索其相互间关系，如某个是否基于另一个，或者给予扩展、普遍化，或声明和另一词表的等价物。LOV项目的研究成果应用：关联开放数据词表之元数据推荐(Metadata Recommendations For Linked Open Data Vocabularies, version 1.1, 2012-8-19)

DC与Schemar.org映射
(p.12) Bernard也提出建议在DC属性和schema.org词表之间做映射，DCMI的一个工作组正采用GitHub管理这样一个映射原型集：DC – Schema.org Mappings [目前对应6个类、27个属性]

via NISO Press Release: NISO Publishes Themed Issue of Information Standards Quarterly on Linked Data for Libraries, Archives, and Museums (10 Sep 2012)

《RDA基础导论》笔记

Introducing RDA: a guide to the basics / Chris Oliver. Chicago : ALA, 2010. 117p. ISBN 978-0-8389-3594-1

此书为第一部关于RDA的专著，与RDA工具包差不多同时出现。作者为麦吉尔大学编目主管，加拿大编目委员会主席，也是正在做RDA文字重写的编辑。
作为RDA开发亲历者，这本入门书正所谓深入浅出，从内容到管理、从历史到未来，全面而又有重点地介绍RDA。没有专门讲RDA的开发史，但很自然地分散在全书的不同部分，行文游刃有余，对开发者意图的解说充分、透彻。
看的过程中还发现一些自己以前忽略或理解不足的地方。虽然书中有时有点啰嗦、有些在不同部分有重复，仍然是一本值得推荐的好书。只是在亚马逊仅有的3个评论中，竟然是一个4星、2个一星，而且拍砖的讽刺挖苦起人来，只能说哪国人都一样。（亚马逊Look Inside可以看第一章及文后部分）

1、什么是RDA？
取代AACR2的新标准，不同之处在于：基于一个理论框架，为数字环境设计，比AACR2有更广的适用范围。

2、RDA及国际背景

3、RDA中的FRBR和FRAR
FRBR和FRAD在RDA中的踪迹：
– 实体关系图
– RDA目次
– 用户任务
各部分“一般准则”章的“功能性目标与原则”，指明条款与用户任务之间的关系，强调所记录的数据与数据在完成用户任务中的作用之间的关系。
– RDA条款内容
— RDA增加了很多AACR2没有的元素，都是FRBR/FRAD模型中的属性和关系
— RDA条款所用词汇反映FRBR/FRAD模型的概念和术语
— RDA显著扩展关系指示词，以准确记录关系类型

4、延续AACR2
– 相同的治理结构
– 刻意基于AACR2
– 很多RDA条款衍生自AACR2
– RDA与AACR2记录兼容：检索点方面，JSC对改变做了细致检查，确保可以通过全域更新方式实施所需更改。
– RDA脱胎于尝试对AACR做根本修订：RDA的开发是解构后围绕新框架重构的过程 [始于1997年多伦多会议的开发历程]。

5、变化在哪里？
– 原则、目标与概念模型
– 关注用户
– 描述所有类型资源的可扩展框架：AACR2的主要缺陷是不能扩展到新出版类型的描述
— 内容类型、媒介类型、载体类型
载体类型表中包含很多熟悉术语，在AACR2中用作特殊资料标识（SMD）。AACR2中SMD构成数量说明的一部分，但RDA则使用两个不同元素，一是载体类型，使用控制词表；另一个是数量，适用时可采用载体类型（单数或复数），也可采用其他术语。
RDA要求“记录适合被描述资源的尽可能多的[内容/媒介/载体]术语”，交替做法是只记录应用于占优势部分的类型。在编目音乐CD时，资源的内容类型只有一个（表演音乐），但可能记录两个媒介类型（声频、计算机），两个载体类型（唱片/声音盘、计算机光盘）。
– 发行模式：AACR2没有的新数据元素：单行，多部分单行，连续出版物，集成资源。AACR2第12章连续出版物和集成资源，RDA没有根据发行模式区分的条款，如同RDA没有依内容或载体类型区分的条款。
– 数据元素：RDA所用含义更接近元数据方案（schema）中预定义元素集的含意，为RDA的正式元数据元素注册、以便在Web环境中运作，打下了基础。
– 附加元素
– 核心元素：RDA没有确定描述“级别”，也没有确定每个元素是必备或可选，只是给出了一个最小集，在实现用户任务中具有最高价值，基于FRBR/FRAD
– 照录所见：表现原则是RDA条款设计的一个重要原则：数据应当反映资源本身的表现，即take what you see。紧密遵循表现原则，描述资源的过程得以简化，也为数据自动抓取、重用其他来源数据提供了可能性。
– 强调关系
— RDA对规范检索点的数量不加限制。
— 提供记录关系“性质”的途径。推广采用[关系指示词]受控词汇意味着提供的信息是可识别形式的，可由自动处理提取，用于导航和数据显示。
— RDA目标在减少模糊、改善准确。构造规范检索点时避免缩写，停止使用“多语种”。

6、实施RDA
培训之外，顺利过渡中起作用的三个因素：1、RDA工具包；2、RDA数据编码与显示；3、协调实施
[1] RDA工具包
– RDA标签
– 工具标签
— 元素集视图：如同RDA元素的词典，列出每个RDA元素的名称、定义、所用控制词表[术语、限定词]，所用条款列表并链接到正文，如何以MARC21编码并链接到MARC21网站完整信息。给编目员一个快速指引工具。
— 实体关系图
— 工作流程：为特定任务或描述资源、提供检索的一个处理过程而写。各机构可结合本地的选项规定或本地实践做定制。共享可消除重复劳动，还可能鼓励RDA的统一应用。工作流程也可作为特殊编目界（如地图或珍贵资源）的有用工具，目前准备和维护特定的手册，可以选择为特定的内容和载体类型定制工作流程并共享，以支持其社区的一致性与标准化。
— RDA映射
— Schemas：XML Schema如同模板，用XML编辑器填入数据
– 资源标签：AACR2全文；与RDA使用有关信息的文献与网站链接：FRBR/FRAD模型，MARC，DC，有关创新活动如RDA注册元素集和词汇表。可扩展包括新的相关文献与链接。
* 工具包链接到外部开放获取资源，也可以由订购产品链接入工具包，如Cataloger’s Desktop。在图书馆界转向XML Schema环境前，重要的链接是基于MARC的图书馆系统与工具包之间的，联系点将是元素集视图，ILS及编目服务如Connexion，将链接到RDA，到元素集视图。[不是根据MARC映射直接到条款？]
[2] RDA数据编码与显示
– 新MARC21字段/子字段：MARC21变化完整回顾是培训计划的重要部分，从实践层面对学习如何编码数据重要，也反映了RDA不同于AACR2的关键部分。
– 使用RDA，编目界开始记录可以支持改进导航与显示的数据。不一定马上有向用户显示数据的新途径。开始大多数数据是遗产数据，因此数据呈现的延续性提供一致的外观，RDA数据可映射到现有显示习惯。随着遗产数据与RDA数据之间的平衡改变，随着数据检索与显示上的新进步，RDA数据也会用在新的数据呈现中。
[3] 协调实施
– [历史] 2007年四国国家图书馆协调实施……测试……2009年四国国家图书馆关于2010秋实施的声明……
– 每个机构都可以做出自己的交替与选项决定，但经协调的决定能改进数据交换条件，向用户呈现一致的数据；也可以改进效率，因为一套决定集体做出，为所有人维护与更新。与国家应用决定相关的是现有规则解释的审核。如LC审核其LCRI，排除很多、重写约1/4而为LCPS。
– 实施RDA需要准备与培训

7、优点，现在和未来
指导RDA开发的四个简单目标：回应用户需求，费用效益，灵活性，延续性
[1] 对用户的优点[总的来说，不少还是将来式，取决于系统的改进]
– 关注用户
– 数据支持改进导航与显示：RDA是内容标准。本身不会改进导航与显示，因为数据必须由设计良好的搜索引擎和搜索界面适当使用。但记录明确、无歧义数据是改进资源检索的必须步骤
– 精确定义数据元素：……最初发布与实施时，RDA仍将用MARC21数据编码，没做多少改变以体现其优势，但……
– 数据支持配置(Collocation)：[指聚类显示]
– 开拓视野：注册RDA元素集与取值词表。用户将得益于此，维持与其他元数据界的兼容，准备在Web环境下使用书目与规范数据。
– 延续性：实施不会带来突然改变，开始逐渐改进的过程
– 排除混乱的描述实践：RDA在记录而非转录的场合，使用全拼，无歧义；排除了拉丁缩写，代之以解释性词组
[2] 对机构的优点
– 所有对用户的优点也是对图书馆或类似机构的优点。大多数机构的首要目标是服务其用户……
– 机构常常关注其可见性(visibility)。使图书馆数据在Web环境可用有益于机构
– 取决于机构的身份与使命，RDA适应国际环境中使用的重要性各异。去英美倾向的努力是明显的……改变程度不大，但标志着RDA为适应一系列语言文化而设计。RDA条款……适用于所有资源……这让RDA成为一个更公平的标准。
– RDA的定义特征校准FRBR/FRAD概念模型，与ICP一致。
– RDA工具包方便RDA使用。提高工作效率。
– 改用RDA实现效率。简化转录过程；允许重用元数据。
– 延续性，对机构对用户同样重要，顺利转换。
[3] 对编目员和元数据创建者的优点
– 所有对用户、对机构的优点，也是对编目员的优点……
– RDA是一套详细的条款，但给编目员判断留有空间。
– 对奉献时间与能量生产高质量书目与规范数据的编目员，图书馆数据在未来有作用很重要。
– RDA让编目员的工作与21世纪相关，但也为现有环境实施设计。
– 很多改变让编目更简单。如转录数据少有例外。新类型资源出来后无需等待如何用GMD。给用户显示总可以在以后调节和改变，并不改变数据。
– 描述所有类型资源方法一致。只在一般条款不足时，加上针对特定资源类型的特殊条款。
– RDA工具包提供多个方法使用标准，并有效集成进日常工作。
* 并非所有优点都会在实施的第一天表现出来。但从实施日开始，编目员将是受益第一人，因为他们将开始使用新的逻辑一致标准，致力于为用户改善资源发现。随着编目员建立起RDA数据的躯体，用户将看到标准将其需求放在中心的益处。

标准“牙刷说”的出处

今天无意中逛到NISO（美国全国信息标准组织）的博客（之前没有订阅），先是被一篇博文中所引XKCD的一幅多格漫画吸引，然后就在其中看到了自己2007年博文中曾引用过的标准“牙刷说”的出处，文字略有不同.
2006年美国，时任美国驻OECD（经济合作与发展组织）常驻代表的康妮·莫瑞拉（Connie Morella）在接受美国全国标准机构（ANSI）的标准领袖奖（Ronald H. Brown Standards Leadership Award）时说：
“Standards are like toothbrushes. Everybody wants one but nobody wants to use anybody else’s.”
标准就像牙刷，每个人都需要一个，但没有人想用其他人的

标准是怎么激增的（见：充电器，字符编码，即时通讯IM，等等）
现状：有14个相互抵触的标准
男：14个？太荒谬了！我们需要开发一个通用标准，覆盖所有使用案例。
女：是！
不久：现状：有15个相互抵触的标准

NISO博文作者对标准太多的解释是：理由有很多，其中之一是因为不同社区由于不了解邻近社区的发展、没有看到两个或更多相关规范的重叠的或共同的目标，而去创建自己的规范。因之培育跨社区的讨论与协作相当重要。

via NISO Standards Bearer Blog: Why are there so many standards? (2011-7-20)