郢书燕说 – 第 6 页 – 编目精灵III

FRBR、RDA和BIBFRAME词表的RDF推理测试

有关新兴的书目RDF词表的正式论文不多见。因此当看到远洋老师在书社会Keven日志的评论中推荐此文时，马上下载，然后花了几个晚上阅读、消化此文，对RDF词表有了与先前不同的理解。

《语义网中资源描述的多实体模型：FRBR、RDA和BIBFRAME比较》
Baker, T., Coyle, K., & Petiya, S. (2014). Multi-entity models of resource description in the Semantic Web: A comparison of FRBR, RDA, and BIBFRAME. Library Hi Tech, 32(4), 562-582. doi:10.1108/LHT-08-2014-0081 (Preprint)

原文摘要：新兴图书馆标准中，书目描述正采用多实体模型，描述从概念性作品到物理单件的不同抽象层。其中三个已发布为使用语义网标准RDF的词表：FRBR、RDA和BIBFRAME。作者使用通用的语义网可用软件，测试了基于这三个词表的RDF数据。分析证明，这些模型意图的数据结构不被RDF词表支持。在某些情况下，这导致词表间不受欢迎的不兼容，在Web的开放数据环境中对互操作是一种损害。

文章含脚注及参考文献共18页（期刊版20页），读完后对文章概要、一些基本概念及作者的观点备注如下（有时很难分清是作者观点还是基本概念）：
1、文章概要
文章分别使用FRBR、RDA和BIBFRAME词表，设计若干非正统数据样例，用RDF推理机测试，结果表明（FRBR词表）类的互斥会造成问题，而（RDA和BIBFRAME词表）属性与类的非一对一“错误”并未被检测出来（换言之虽不符合词表定义及其校验目的，但未影响到实际使用）。文章没有直接做三种词表的比较。
2、关于RDF词表
（1）RDF类不定义属性；RDF属性独立于类，原则上可用于描述任何类的实例。
（2）基于推导的RDF语义在本质上是提供（增加）信息的。RDF定义域声明允许推理机简单推导：以一个属性描述的资源，也是该定义域类的成员。
（3）OWL公理（类成员、基数、互斥）不是数据检验约束。RDF类不支持数据结构校验。新兴的RDF检验方法会在RDF词表本身之外表达这些约束。
3、关于书目RDF词表
（1）目前的多实体书目模型的RDF词表，概念化书目事物(thing)为属于不同RDF类的资源集。
（2）FRBR定义类互斥。当描述类的实例的数据必须与描述完全不同类的实例的数据集成时，互斥会造成问题。
（3）定义的约束越少，RDF词表越可重用。从质量控制需求，对书目数据的校验约束应该采用应用纲要等方法，独立于词表表达。

IFLA《善本和手稿馆藏数字化规划指南》

微博上看到Cle_d介绍国际图联（IFLA）网站发布《善本和手稿馆藏数字化规划指南》。和本职相关度高，自然得下载，作为工作的一部分，认真细看。

Guidelines for Planning the Digitization of Rare Book and Manuscript Collections
Written by the IFLA Rare Book and Special Collections Section, September 2014. Revised in January 2015.

本指南完成于2014年9月。由于作为责任者的IFLA“善本与手稿部”改名“善本与特藏部”，2015年1月对责任者名称做修改后重新发布。不知道为什么不索性把指南名称也一同改了：《善本和特藏数字化规划指南》不也更合适么？至少在看过指南后，我认为修改名称会更合适。
本指南对规划特藏数字化计划提供指导框架，包括一些原则性的建议。文件中基本上没有提供相关标准等资料，不属于实践性的手册。

作为一个实践者，通读后发现自己在数字化项目规划过程中做对了一些事，但还是有不少失误。部分原因可以说是偷懒跟着别人走，没有意识到对特藏需要有特别的关注点；有时又觉得技术平台对我们而言是拿来的东西，自己无能为力，而实际上自己根本没有考虑过用户的需求。总结起来存在的主要问题是：
1、只考虑资料的智力内容，没有考虑原件外观可能对用户同样重要（如果说更重要的话，那用户根本不会考虑用扫描件了）。
2、只考虑资料的管理与保护，没有意识到数字化应该是为用户而做的。这不是指我们没考虑过用户，事实上我们还由用户提出需求来做数字化，但这也只是从图书馆角度的做法，并没有从用户角度考虑。
以上两个方面的结合点，就是在“忠于原件”部分，可以说完全无意识，因而做得相当差。
指南从项目计划开始，就把用户当作项目的一部分，了解用户的需求、向用户提供数字化信息；评估也不仅仅是数量，更考虑质量，考虑用户的使用体验。等等。指南作者均来自欧美，差距自现。

———- 学习笔记（摘译原文大纲 +【感想】） ———-
导论和范围
－导论
图书馆有责任提供对其数字馆藏的全球访问：公众需要它、学者期盼它。【“提供对研究资源免费和世界性的获取”的要求贯穿整个指南。对此，除版权方面，无论出于对外部环境还是内部政策的考虑，均无话可说。可以说，我们的数字化项目，从前提上就基本没有遵循这个指南。】
－范围
不同于专注技术问题、数字采集的特定方法或数字保存，本指南关注于概念规划和与潜在用户的协作，以达到所需结果及可持续的成果。【确实让我意识到了这两个问题，尤其是用户问题】

1 设计项目
开始项目选择时需要先回答的几个基本问题：
－项目的愿景？目标与目的？谁用？如何用？
－谁应当参与规划？【学者、用户、管理者、图书馆员工和技术人员】
－有没有外部资助机会？
－期望的复杂程度？能够达到的复杂程度？
－想数字化什么，为什么？
－资料有没有版权问题？
－数字化应当在馆内还是外部服务提供者实现？有没有空间、费用、设备和专业？外部厂商可提供什么？
－项目的最终格式是什么？有没有手段达到？
－有没有设想社会网站成分，例如众包转录文字或元数据强化？
－如何把质量管理结合进项目的所有阶段？

2 选择原件
－是否想数字化单一的、混杂的，比如“宝物”？
－是否想数字化现有馆藏？
－是否想创建新的“虚拟”馆藏？比如来自不同机构、具有共性的馆藏？
版权
权利拥有和“使用条款”在项目开发中也很重要，应当通过与协作方及其他第三方协议，必须在事先讨论同意，并且在项目开始前写下。此外，数字化对象本身可视为新版本。其结果是，每个数字化对象及馆藏的可获得性及使用条款应该向用户明示。【或许普遍存在的问题是：一方面对资源被盗版心存疑虑，另一方面并没有在页面提供足够的版权声明】

3 创建馆藏工作流程
第1步：检查和准备数字化资料：物理条件和现有元数据
第2步：数字化过程
－选择设备
－图像质量
在计划采集分辨率时，确保计算需要多少存储空间，考虑研究者体验的下载时间。希望只数字化馆藏一次，用于当前和未来需求时，应当考虑按当前期望最终格式1.5倍以上采集。【“1.5倍”说以前从未听说过】
－忠于原件
数字化善本和独特资料时，重要的是尽可能按原件的外观与感觉保存与还原。【对我来说，从未有过保存还原“外观与感觉”（look and feel）的意识。虽然在不少日本数字化项目中看到过图像边上的标尺/色标，但一直没有引起足够重视，从未想过我们也应该照此办理】
应当采集完整物理对象，而不仅仅是智力内容。必须拍摄整页前后（包括页边），不要在页边内修剪图像。装订册应当从头到尾拍摄，包含空白页及装帧。
为向研究者传递原件尺寸，图像中应该包含线性比例尺。一个装订单位中，不应该通过图像处理或转动对象改变页的方向。
在尝试还原原件外观与感觉时，颜色是最重要而复杂的问题之一。一个对象至少应该选择一个页或图像包含色标以方便颜色校准。每个设备应当以相同色值标准（如CIR-Lab系统）校准，并定期重校。显示硬件也应当校准。【我们似乎从来没有做过颜色校准】
－与保护有关的问题
步骤3：采集后图像处理和系统摄入
除了颜色修正，不应该做图像处理。关于是否或者何时允许颜色修正，机构应当有一个政策。政策还应当说明，有关采集后图像颜色操作的信息如何与用户沟通。【我们扫描后最常做的就是“图像处理”，比如去掉页面中的黑点、让页面美观之类，在我看来既费时又无意义，但似乎扫描图像的标准如此？】
每个数字化对象应当有一个永久标识符。【考虑过，一直没有实施】

4 元数据
适用于数字馆藏的4类元数据：
－书目（或描述）元数据
数字化后，应该在目录记录中加上指向数字版的链接，并在数字版中加上返回目录记录的链接。【只做了一半，目录中加了链接，但数字版元数据中没有返回链接】
－结构元数据
研究复杂对象如中世纪手稿、档案、通信或相集，研究者必须能够从个别数字页面图像还原（或重组）物理项。图书馆……应当提供出色的校对和其他形式的结构化元数据。至少研究者要能确定页面或图像的原始顺序。……除了识别左页和右页，还应该给出总页数。其他重要元素包括编页方案、文本区分、重要引文和插图。【在某个特藏的元数据中竟然忽略了“插图”，实在不应该！】
－图像（或技术）元数据
通常由照相机或扫描仪自动采集，出现在文件头
－管理元数据

5 显示
用户正寻找免费开放获取、易于通过普通搜索引擎发现、用标准浏览器和插件时没有交互和显示问题、具有查看选项（包括双页显示和缩放能力）、标签功能（尤其为后续检索）、个性化注释能力、打印能力，以及下载、重用及组合能力。呈现格式应当易于浏览、可下载、易操作。【检索使用界面的功能需求】
向用户清晰显示版权限制或其他“使用条款”。【前已提及，这点经常被忽视】

6 宣传、推广和重用
主目录中包含数字项的书目描述及数字化文档的书目记录，并链接到文档。这些描述同样存储在数字化图书馆系统中，并链接回主目录。【前述只做了一半】

7 评估
与制作和使用相关的统计可以提供数量评估的良好起点，如：数字化图书、对象的数量，门户网页的访问数，数字对象被看、下载的次数，被引用或链接的次数等。
但是更重要且困难的是质量分析，需要来自用户的反馈：
－代理【扫描件】忠实原件的程度如何？图片是否原件的有效替代，或研究者需要至少看原件一次以完成其目的？【由于只考虑智力内容，从未考虑过扫描件是否足以代替原件的问题】
－产品可读性与可用性？
－技术多大程度上实现研究目的？
－资源被如何使用，被谁使用？
－资源被如何重用或改作他用？
－对物理馆藏使用的影响是什么？
有关数字化项目的统计，应当纳入所有图书馆活动和使用的常规报告。

8 数字馆藏的长期保存
图书馆至少应该维护其高分辨率数字馆藏于日常备份网络服务器，有流程和系统可以随时间流逝监控数字文件的完整性。在地理位置分散的多处存储多份拷贝也是可接受的保存策略。应当有流程用于日常评估升级馆藏或模拟软件功能的需求。【如何“监控数字文件的完整性”？这个问题亟待改进与加强】

9 建议摘要
－仔细规划项目，考虑目标与目的、版权限制、资助及机构的能力。由图书馆员、技术人员、保管员、研究者和管理者共同参与。
－预期学者和数字研究方法的需求，可能包含大数据、资源聚合、详细图像分析、数据可视化、地理空间映射、社会媒介等。
－借助数字化项目，提供对以往隐藏馆藏的访问，努力将它们虚拟地与其他机构的相关资料联合。
－总是数字化完整的智力实体而不是其部分。保留完整原件的外观与感觉，强化其作为历史产物的研究。数字化副本要保留原件的结构与上下文（环境），维护返回到目录记录的链接。
－永远不要在数字化后剔除原馆藏。与数字代理交互，永远不可能得到与物理馆藏交互可能得到的全部知识。
－提供高分辨率彩色图像，包含关于图像的技术信息、版权信息、比例和彩色图、缩放能力，可能时全文检索、文本全部或部分转写、地理空间座标。对数字资源使用永久标识符。
－提供尽可能多的描述性、结构化、技术性和管理性元数据。在永久库中提供链接返回到物理对象描述。
－对数字馆藏的创建存档，如同对新物理馆藏，让研究者可用这些信息
－提供对研究资源的全球免费访问，以易于集合、使用及导入数字研究与出版平台的方式，向用户提供下载数字对象、馆藏和元数据。
－通过外部门户和聚合服务曝露数字馆藏
－评估和记录项目成果
－确保数字馆藏的长期保存

JSC主席Gordon Dunsire论《RDA和语义网》

RDA开发联合指导委员会（JSC）现任主席Gordon Dunsire于2014年3月4日在意大利佛罗伦萨大学作了题为“RDA与语义网”的报告，PPT共27页，不易看明白，但其报告内容作为图书馆学演讲丛书的一种，由Casalini Libri同时出版印刷与电子版。“本文简单讨论为了语义网自然选择而改进RDA的适应度，需要进一步工作的某些关键领域”（p.42)。
Gordon从当年的RDA局外人[2014-5-6更正：2007年他是作为RDA推广组代表成为DCMI/RDA共同主席的]到成为JSC掌门人，几乎全面参与了始于2007年伦敦数据模型会议的RDA（以及IFLA）的语义网相关工作，书中主要部分是“II.背景”，在介绍RDA、语义网的基本知识之后，对“RDA和语义网”的来龙去脉娓娓道来，又以大量图示解说语义网环境下的RDA，对相关内容、现状及有待解决的问题解说细致，无疑是最权威的信息来源。要完整全面了解“RDA与语义网”，值得花时间细读此书。
对于RDA在语义网方面迄今为止的进展，Gordon说明JSC除了考虑若干与RDA元素集有关的讨论稿之外，由于“在2010到2013年的优先考虑是解决由AACR3[2]到RDA转移的零星问题、回应RDA测试实施、以及RDA工具包后续出版，因此对在开放元数据注册（OMR）上进一步开发元素集几无进展”(p.24)。而由于“RDA的RDF表达的未完成状态，没有完全的RDA语义网实施”(p.36)。

需要特别提醒注意的是，RDA首先是“内容标准”，其与语义网产生关联，主要是其注册的元素集与取值词表，或者说是由RDA衍生出来的“元数据标准”，而非其编目规则本身。念及此，不免想到正在开发中的BIBFRAME，也是“适应语义网环境的元数据标准”（如伦敦会议对RDA的期许）。Gordon在文末总结时对RDA应用前景似不甚乐观，称“RDA必须与其他物种协作或竞争以生存或继续生存”(p.42)，而BIBFRAME自是“其他物种”之一。

———《RDA与语义网》———
RDA and the semantic Web : lectio magistralis in library science : Florence, Italy, Florence University, 4th March, 2014 / Gordon Dunsire. Fiesole (Firenze) : Casalini Libri, 2014. (Letture magistrali in biblioteconomia; 7) ISBN 978-88-7656-012-5 (print) ISBN 978-88-7656-013-2 (ebook)
电子书PDF下载（ 94 p.; p.7-42为英文版，其后为意大利文版，p.88-93为参考文献）报告PPT下载

I. 导论 (p.7)

II. 背景 (p.7-29)
1.RDA

2.语义网
一些基本概念：资源描述框架(RDF)、三元组(triple)，统一资源标识符(URI)、文字值串(literal)，命名空间(namespace)、限定名称(QName)，RDF图(graph)、三元组链(chain)、三元组群(cluster)，东西(thing)，推理规则，取值词表(value vocabularies)

3.数据模型会议
2007年不列颠图书馆主办伦敦数据模型会议，讨论RDA与语义元数据所用数据模型的关系。“对书目元数据元素集细粒度和复杂性需求的共同认识，导致了与会者间富有成效的讨论”。会议建议的若干活动，由会后成立的DCMI/RDA工作组实施：
– 开发RDA元素词汇
– 开发RDA DC应用纲要，基于FRBR和FRAD
– 公开RDA取值词表，采用RDF、RDFS和SKOS

4.对IFLA标准的影响
“‘伦敦会议’对IFLA开发语义网界使用的书目标准有着直接影响”：
– 2007年FRBR评审组讨论了为FRBR模型创建一个元素集。FRBR命名空间项目：
2011年，FRBR元素集在开放元数据注册（OMR）上发布
2012年，FRAD和FRSAD元素集在OMR上发布
2014年初，FRBRoo元素集将在OMR上发布
– 2009年ISBD评审组成立ISBD/XML研究组：
2011年，ISBD元素集、第0项内容形式和媒介类型取值词表在OMR上发布
开发了一个ISBD用DC应用纲要
【参见：FRBR系列元素集与取值词表出版（2012年5月27日）】

5.RDA元素词表的开发
根据“RDA元素分析表”(RDA Element Analysis Table)。最初注册在2008年6月到2009年6月间。“遇到的最重要问题包括FRBR模型的语义约束(constraints)【见6】，以及表达其他项的集合项【见7】”。
【参见：JSC会议有关RDA注册的讨论与决定（2012年11月18日）】
【参见：Diane谈RDA元数据注册的设计（2012年11月18日）】
【参见：RDA注册元素集终于正式发布（2014年1月23日）】

6.FRBR约束
“RDA元素分析表”中大多数特性和关系被赋予一个FRBR实体的“领域”，将RDA属性的语义局限于FRBR应用。为鼓励更广泛的重用，DCMI/RDA工作组开发了一个并列的RDA属性集，不限特定领域或范围。
另外，为FRBR第2组实体增加了一个超级类(super-class)“代理”，以解决多领域解释RDA元素。

7.集合项
指由子元素组成的元素（如“出版项”元素由“出版日期”、“出版地”、“出版者名称”等子元素组成）。DCMI/RDA工作组采用出自都柏林核心抽象模型(DCAM)的“语法编码方案”(Syntax Encoding Scheme)概念的延伸，以适应特定格式，但仍有争议，DCMI社区讨论中。

8.迄今为止的进展
JSC考虑的若干与RDA元素集有关的讨论稿：
– ISBD元素集与RDA元素集的校准-RDA附录D.1【参见：ISBD与RDA的对照（2014年1月17日）】
– RDA中的机器可操作数据元素：讨论稿（CCDA，2013）
– RDA第3章中机器可操作数据元素（CCDA，2012）【参见：RDA第3章机器可操作数据元素（讨论稿）（2012年6月25日）】
– 映射ISBD和RDA元素集
– RDA关系说明语的RDF表达：讨论稿及后续

9.基于FRBR和FRAD开发RDA DC应用纲要（“本项活动密切依赖于RDA元素集，因而至今几无进展”）

10.采用RDF、RDFS和SKOS公开RDA取值词表
【参见：RDA注册第一批词汇表出版（2011年8月2日）】
【参见：RDA注册词汇表：内容、媒介、载体类型出版（2012年1月27日）】

11.五年来（“2011年DCMI/RDA工作组经评估，后来重命名为DCMI书目元数据工作组”）
【参见：图书馆从传统数据观走向关联数据及语义网：五周年（2012年5月16日）】

III. RDA和RDF (p.29-31)
1.DCAM（“RDA元素”词表的2个元数据模型：DCAM和<indecs>）

IV. RDA命名空间 (p.32)
1.取值词表（有65个取值词表，由DCMI/RDA工作组创建。其中22个词表为“发布”状态，包含约200个概念）

V. 元素集 (p.32-36)
1.RDA元素（衍生自“元素分析表”的特性属性有约300个，关系属性约30个）

2.关系说明语
“RDA文本清楚表明，关系说明语细化关系。因此每个说明语应当作为RDF关系属性的子属性表达。DCMI/RDA工作组采用该方法，得到JSC批准”。但“元素分析表”将“关系说明语”视同取值词表。“JSC正监控这一交替表达的需求，组合使用两种方法，如MARC21关系词代码命名空间”
在RDA的RDF表达中，有约700个关系说明语属性及其倒转（逆属性，如(abridged as (work))与(abridgement of (work)），因此RDA元素集中属性总数超过1000个。

3.RDA/ONIX框架
JSC同意开发一个元素集表达框架本体，作为RDA与其他载体和内容术语表（如ISBD第0项）的互操作中心(hub)。本项工作有可能在2014年展开，JSC已经设立一个工作组。

VI. 语义网中的RDA (p.36-41)
“因为RDA的RDF表达的未完成状态，没有完全的RDA语义网实施”。但“现有‘新提出’元素集的若干属性已用于关联数据项目与服务”。
1.RDA领域模型
2.益处

VII. 结论 (p.42)
分析了伦敦数据模型会议提出的预期益处的实现状况：
– 图书馆界得到与Web架构兼容的元数据标准，与其他语义网计划完全互操作【元素词汇已发布】
– DCMI社区得到坚定基于DCAM和FRBR的图书馆应用纲要（将是其他可以遵循的高层纲要范本）【尚在任务清单中】
– 语义网社区得到一个可重用的、重要的经慎重考虑的元数据术语池【元素词汇已发布，取值词表部分发布】
– 让RDA得到更广泛采用(uptake)【有待观察】
“RDA是语义网生态系统中一个进化中的物种，在持续改变的环境中，仍在建立其生态区位(niche)的过程中……RDA必须与其他物种协作或竞争以生存或继续生存……”。