关联数据词表管理

美国国家信息标准组织(NISO)的《信息标准季刊》(ISQ)自2011年起转为开放获取期刊,过刊也逐步回溯上网提供。最新一期为特刊《图书馆档案馆博物馆关联数据》
Information Standards Quarterly. Vol. 24, Issue 2/3 (Spring/Summer 2012). ISSN 1041-0031
Topic: Linked Data for Libraries, Archives, and Museums

本期由纽约大学元数据服务馆员Corey Harper担任客座内容编辑,专题文章“关联数据词表管理”:
Dunsire, Gordon, Corey Harper, Diane Hillmann, and Jon Phipps. Linked Data Vocabulary Management: Infrastructure Support, Data Integration, and Interoperability. Information Standards Quarterly, 2012 Spring/Summer, 24(2/3):4-13.

对全文意思把握不住。大致理解是:得到应用的元数据词表越来越多,在关联数据环境下其对照crosswalk/映射mapping/校准alignment更为复杂,需要探讨其管理问题。
以下只摘录若干事实,小标题为自拟提示,非照录原文。

应用纲要
(p.5) 2000年最早公开提出:Heery, Rachel, and Manula Patel. Application Profiles: Mixing and Matching Metadata Schemas. Ariadne, issue 25, September 24, 2000 [从该文看,源于UKOLN的DESIRE项目,希望在DC-8上推广]
(p.6) 实践则早自1999年:UKOLN DESIRE元数据注册,欧盟委员会资助的Schemas Project及其后继者CORES。

元数据注册
(p.6) 上述工具以registries著称。2002年DCMI发布其自己的元数据注册,由Heery和Wagner创始开发,其工作激发了很多其他注册,包括“开放元数据注册”。当前版DCMI注册是日本元数据基础体系注册、JISC信息环境元数据体系注册的基础。
(p.7) DCMI注册社区成立于1999年,成为讨论元数据注册的开发、管理和功能需求的集中地。2009年,UKOLN联合DCMI注册社区,进行一项元数据注册用户和所有者的调查,确认当前词表管理与注册间互操作的系统实践和功能需求。调查结果未出版,文中提供部分图表。

开放元数据注册(OMR)
(p.6) 始于NSF资助的美国国家数字图书馆项目──NSDL注册。现在扩展到图书馆界,存有RDA词表,IFLA的ISBD、FR家族模型,MARC21的RDF实验版。目前正致力于词表映射。
(p.8) RDA命名空间创建于2008年。截至2012年7月,元素集和很多取值词表仍处于不定状态。但由于状态和开发史可见,允许实验应用。
RDA命名空间的开发直接刺激了IFLA方面考虑其标准在语义网使用的潜力,因为RDA基于FR家族。ISBD正开发一个DC应用纲要,说明一条构造良好的ISBD的需求,包括元素的必备性、可重复状态,集成元素为高级说明,及取值词表来源。IFLA还在考虑翻译元素集和取值词表的最佳实践,因为它运作于多语言环境,其活动有7种官方语言。部分ISBD和FR家族命名空间已由英语译为西班牙和克罗地亚语。
复用RDA元素被排斥[?],因为自然流程是由模型细化应用。反之,ISBD不复用FR元素,因为对两个标准间的语义关系还没有完全一致的认识。受到校准ISBD和RDA元素以改进互操作工作的激励,已经开始讨论在IFLA和其他社区元数据元素间映射不受约束的命名空间:Dunsire, Gordon. Unconstrained namespaces. In: IFLA Namespaces Technical Group, IFLA Classification and Indexing Newsletter, no.45 (June 2012)(PDF)

欧洲国家图书馆发布目录数据的RDF表述
(p.8) 复用更为领域中性的词表DC、BIBO、FOAF,如LIBRIS、BL、剑桥大学。德国国家图书馆复用DC、FOAF、SKOS及RDA词汇。
(p.9) 特别是剑桥开放元数据项目(COMET),把所有转换工具、代码、过程均置于开源许可下。

元数据映射举例
(p.9) 图3:(书目资源的)数量RDA本体图(ISBD、FRBR、RDA、BIBO、MARC21、DC)

词表“校准”(Alignment)和DCMI词汇管理社区
(p.11) Michael Bergman在DC-2010的主旨报告,从词表激增的势头没有缓和的迹象,看到了对词表校准、同参引(co-referencing)和互操作的新兴需求。对“校准”的关注在某种程度上类似于已有的、在基于记录(通常为XML)的元数据结构间开发对照表(crosswalk)。词汇校准,识别个别元数据元素间的对应及其他关系类型,帮助这些属性应用于其来源词表环境之外。
然而,开放关联数据环境概念的扩展,我们面临的情况比开始所见的更为复杂。……DC-2011会前会……导致了DCMI词汇管理社区的成立。

关联开放词汇项目(LOV)
(p.11-12) Bernard Vatant及其团队收集了现有属性词表信息,探索其相互间关系,如某个是否基于另一个,或者给予扩展、普遍化,或声明和另一词表的等价物。LOV项目的研究成果应用:关联开放数据词表之元数据推荐(Metadata Recommendations For Linked Open Data Vocabularies, version 1.1, 2012-8-19)

DC与Schemar.org映射
(p.12) Bernard也提出建议在DC属性和schema.org词表之间做映射,DCMI的一个工作组正采用GitHub管理这样一个映射原型集:DC – Schema.org Mappings [目前对应6个类、27个属性]

via NISO Press Release: NISO Publishes Themed Issue of Information Standards Quarterly on Linked Data for Libraries, Archives, and Museums (10 Sep 2012)

《RDA基础导论》笔记

Introducing RDA: a guide to the basics / Chris Oliver. Chicago : ALA, 2010. 117p. ISBN 978-0-8389-3594-1

此书为第一部关于RDA的专著,与RDA工具包差不多同时出现。作者为麦吉尔大学编目主管,加拿大编目委员会主席,也是正在做RDA文字重写的编辑。
作为RDA开发亲历者,这本入门书正所谓深入浅出,从内容到管理、从历史到未来,全面而又有重点地介绍RDA。没有专门讲RDA的开发史,但很自然地分散在全书的不同部分,行文游刃有余,对开发者意图的解说充分、透彻。
看的过程中还发现一些自己以前忽略或理解不足的地方。虽然书中有时有点啰嗦、有些在不同部分有重复,仍然是一本值得推荐的好书。只是在亚马逊仅有的3个评论中,竟然是一个4星、2个一星,而且拍砖的讽刺挖苦起人来,只能说哪国人都一样。(亚马逊Look Inside可以看第一章及文后部分

1、什么是RDA?
取代AACR2的新标准,不同之处在于:基于一个理论框架,为数字环境设计,比AACR2有更广的适用范围。

2、RDA及国际背景

3、RDA中的FRBR和FRAR
FRBR和FRAD在RDA中的踪迹:
实体关系图
– RDA目次
– 用户任务
各部分“一般准则”章的“功能性目标与原则”,指明条款与用户任务之间的关系,强调所记录的数据与数据在完成用户任务中的作用之间的关系。
– RDA条款内容
— RDA增加了很多AACR2没有的元素,都是FRBR/FRAD模型中的属性和关系
— RDA条款所用词汇反映FRBR/FRAD模型的概念和术语
— RDA显著扩展关系指示词,以准确记录关系类型

4、延续AACR2
– 相同的治理结构
– 刻意基于AACR2
– 很多RDA条款衍生自AACR2
– RDA与AACR2记录兼容:检索点方面,JSC对改变做了细致检查,确保可以通过全域更新方式实施所需更改。
– RDA脱胎于尝试对AACR做根本修订:RDA的开发是解构后围绕新框架重构的过程 [始于1997年多伦多会议的开发历程]。

5、变化在哪里?
– 原则、目标与概念模型
– 关注用户
– 描述所有类型资源的可扩展框架:AACR2的主要缺陷是不能扩展到新出版类型的描述
— 内容类型、媒介类型、载体类型
载体类型表中包含很多熟悉术语,在AACR2中用作特殊资料标识(SMD)。AACR2中SMD构成数量说明的一部分,但RDA则使用两个不同元素,一是载体类型,使用控制词表;另一个是数量,适用时可采用载体类型(单数或复数),也可采用其他术语。
RDA要求“记录适合被描述资源的尽可能多的[内容/媒介/载体]术语”,交替做法是只记录应用于占优势部分的类型。在编目音乐CD时,资源的内容类型只有一个(表演音乐),但可能记录两个媒介类型(声频、计算机),两个载体类型(唱片/声音盘、计算机光盘)。
发行模式:AACR2没有的新数据元素:单行,多部分单行,连续出版物,集成资源。AACR2第12章连续出版物和集成资源,RDA没有根据发行模式区分的条款,如同RDA没有依内容或载体类型区分的条款。
– 数据元素:RDA所用含义更接近元数据方案(schema)中预定义元素集的含意,为RDA的正式元数据元素注册、以便在Web环境中运作,打下了基础。
– 附加元素
– 核心元素:RDA没有确定描述“级别”,也没有确定每个元素是必备或可选,只是给出了一个最小集,在实现用户任务中具有最高价值,基于FRBR/FRAD
– 照录所见:表现原则是RDA条款设计的一个重要原则:数据应当反映资源本身的表现,即take what you see。紧密遵循表现原则,描述资源的过程得以简化,也为数据自动抓取、重用其他来源数据提供了可能性。
– 强调关系
— RDA对规范检索点的数量不加限制。
— 提供记录关系“性质”的途径。推广采用[关系指示词]受控词汇意味着提供的信息是可识别形式的,可由自动处理提取,用于导航和数据显示。
— RDA目标在减少模糊、改善准确。构造规范检索点时避免缩写,停止使用“多语种”。

6、实施RDA
培训之外,顺利过渡中起作用的三个因素:1、RDA工具包;2、RDA数据编码与显示;3、协调实施
[1] RDA工具包
– RDA标签
– 工具标签
元素集视图:如同RDA元素的词典,列出每个RDA元素的名称、定义、所用控制词表[术语、限定词],所用条款列表并链接到正文,如何以MARC21编码并链接到MARC21网站完整信息。给编目员一个快速指引工具。
— 实体关系图
工作流程:为特定任务或描述资源、提供检索的一个处理过程而写。各机构可结合本地的选项规定或本地实践做定制。共享可消除重复劳动,还可能鼓励RDA的统一应用。工作流程也可作为特殊编目界(如地图或珍贵资源)的有用工具,目前准备和维护特定的手册,可以选择为特定的内容和载体类型定制工作流程并共享,以支持其社区的一致性与标准化。
— RDA映射
— Schemas:XML Schema如同模板,用XML编辑器填入数据
– 资源标签:AACR2全文;与RDA使用有关信息的文献与网站链接:FRBR/FRAD模型,MARC,DC,有关创新活动如RDA注册元素集和词汇表。可扩展包括新的相关文献与链接。
* 工具包链接到外部开放获取资源,也可以由订购产品链接入工具包,如Cataloger’s Desktop。在图书馆界转向XML Schema环境前,重要的链接是基于MARC的图书馆系统与工具包之间的,联系点将是元素集视图,ILS及编目服务如Connexion,将链接到RDA,到元素集视图。[不是根据MARC映射直接到条款?]
[2] RDA数据编码与显示
– 新MARC21字段/子字段:MARC21变化完整回顾是培训计划的重要部分,从实践层面对学习如何编码数据重要,也反映了RDA不同于AACR2的关键部分。
– 使用RDA,编目界开始记录可以支持改进导航与显示的数据。不一定马上有向用户显示数据的新途径。开始大多数数据是遗产数据,因此数据呈现的延续性提供一致的外观,RDA数据可映射到现有显示习惯。随着遗产数据与RDA数据之间的平衡改变,随着数据检索与显示上的新进步,RDA数据也会用在新的数据呈现中。
[3] 协调实施
– [历史] 2007年四国国家图书馆协调实施……测试……2009年四国国家图书馆关于2010秋实施的声明……
– 每个机构都可以做出自己的交替与选项决定,但经协调的决定能改进数据交换条件,向用户呈现一致的数据;也可以改进效率,因为一套决定集体做出,为所有人维护与更新。与国家应用决定相关的是现有规则解释的审核。如LC审核其LCRI,排除很多、重写约1/4而为LCPS。
– 实施RDA需要准备与培训

7、优点,现在和未来
指导RDA开发的四个简单目标:回应用户需求,费用效益,灵活性,延续性
[1] 对用户的优点[总的来说,不少还是将来式,取决于系统的改进]
– 关注用户
– 数据支持改进导航与显示:RDA是内容标准。本身不会改进导航与显示,因为数据必须由设计良好的搜索引擎和搜索界面适当使用。但记录明确、无歧义数据是改进资源检索的必须步骤
– 精确定义数据元素:……最初发布与实施时,RDA仍将用MARC21数据编码,没做多少改变以体现其优势,但……
– 数据支持配置(Collocation):[指聚类显示]
– 开拓视野:注册RDA元素集与取值词表。用户将得益于此,维持与其他元数据界的兼容,准备在Web环境下使用书目与规范数据。
– 延续性:实施不会带来突然改变,开始逐渐改进的过程
– 排除混乱的描述实践:RDA在记录而非转录的场合,使用全拼,无歧义;排除了拉丁缩写,代之以解释性词组
[2] 对机构的优点
– 所有对用户的优点也是对图书馆或类似机构的优点。大多数机构的首要目标是服务其用户……
– 机构常常关注其可见性(visibility)。使图书馆数据在Web环境可用有益于机构
– 取决于机构的身份与使命,RDA适应国际环境中使用的重要性各异。去英美倾向的努力是明显的……改变程度不大,但标志着RDA为适应一系列语言文化而设计。RDA条款……适用于所有资源……这让RDA成为一个更公平的标准。
– RDA的定义特征校准FRBR/FRAD概念模型,与ICP一致。
– RDA工具包方便RDA使用。提高工作效率
– 改用RDA实现效率。简化转录过程;允许重用元数据。
延续性,对机构对用户同样重要,顺利转换。
[3] 对编目员和元数据创建者的优点
– 所有对用户、对机构的优点,也是对编目员的优点……
– RDA是一套详细的条款,但给编目员判断留有空间
– 对奉献时间与能量生产高质量书目与规范数据的编目员,图书馆数据在未来有作用很重要。
– RDA让编目员的工作与21世纪相关,但也为现有环境实施设计。
– 很多改变让编目更简单。如转录数据少有例外。新类型资源出来后无需等待如何用GMD。给用户显示总可以在以后调节和改变,并不改变数据。
描述所有类型资源方法一致。只在一般条款不足时,加上针对特定资源类型的特殊条款。
– RDA工具包提供多个方法使用标准,并有效集成进日常工作
* 并非所有优点都会在实施的第一天表现出来。但从实施日开始,编目员将是受益第一人,因为他们将开始使用新的逻辑一致标准,致力于为用户改善资源发现。随着编目员建立起RDA数据的躯体,用户将看到标准将其需求放在中心的益处。

标准“牙刷说”的出处

今天无意中逛到NISO(美国全国信息标准组织)的博客(之前没有订阅),先是被一篇博文中所引XKCD的一幅多格漫画吸引,然后就在其中看到了自己2007年博文中曾引用过的标准“牙刷说”的出处,文字略有不同.
2006年美国,时任美国驻OECD(经济合作与发展组织)常驻代表的康妮·莫瑞拉(Connie Morella)在接受美国全国标准机构(ANSI)的标准领袖奖(Ronald H. Brown Standards Leadership Award)时说:
“Standards are like toothbrushes. Everybody wants one but nobody wants to use anybody else’s.”
标准就像牙刷,每个人都需要一个,但没有人想用其他人的

标准是怎么激增的(见:充电器,字符编码,即时通讯IM,等等)
现状:有14个相互抵触的标准
男:14个?太荒谬了!我们需要开发一个通用标准,覆盖所有使用案例。
女:是!
不久:现状:有15个相互抵触的标准

NISO博文作者对标准太多的解释是:理由有很多,其中之一是因为不同社区由于不了解邻近社区的发展、没有看到两个或更多相关规范的重叠的或共同的目标,而去创建自己的规范。因之培育跨社区的讨论与协作相当重要。

via NISO Standards Bearer Blog: Why are there so many standards? (2011-7-20)