FRBR、RDA和BIBFRAME词表的RDF推理测试

有关新兴的书目RDF词表的正式论文不多见。因此当看到远洋老师在书社会Keven日志的评论中推荐此文时,马上下载,然后花了几个晚上阅读、消化此文,对RDF词表有了与先前不同的理解。

《语义网中资源描述的多实体模型:FRBR、RDA和BIBFRAME比较》
Baker, T., Coyle, K., & Petiya, S. (2014). Multi-entity models of resource description in the Semantic Web: A comparison of FRBR, RDA, and BIBFRAME. Library Hi Tech, 32(4), 562-582. doi:10.1108/LHT-08-2014-0081 (Preprint)

原文摘要:新兴图书馆标准中,书目描述正采用多实体模型,描述从概念性作品到物理单件的不同抽象层。其中三个已发布为使用语义网标准RDF的词表:FRBR、RDA和BIBFRAME。作者使用通用的语义网可用软件,测试了基于这三个词表的RDF数据。分析证明,这些模型意图的数据结构不被RDF词表支持。在某些情况下,这导致词表间不受欢迎的不兼容,在Web的开放数据环境中对互操作是一种损害。

文章含脚注及参考文献共18页(期刊版20页),读完后对文章概要、一些基本概念及作者的观点备注如下(有时很难分清是作者观点还是基本概念):
1、文章概要
文章分别使用FRBR、RDA和BIBFRAME词表,设计若干非正统数据样例,用RDF推理机测试,结果表明(FRBR词表)类的互斥会造成问题,而(RDA和BIBFRAME词表)属性与类的非一对一“错误”并未被检测出来(换言之虽不符合词表定义及其校验目的,但未影响到实际使用)。文章没有直接做三种词表的比较。
2、关于RDF词表
(1)RDF类不定义属性;RDF属性独立于类,原则上可用于描述任何类的实例。
(2)基于推导的RDF语义在本质上是提供(增加)信息的。RDF定义域声明允许推理机简单推导:以一个属性描述的资源,也是该定义域类的成员。
(3)OWL公理(类成员、基数、互斥)不是数据检验约束。RDF类不支持数据结构校验。新兴的RDF检验方法会在RDF词表本身之外表达这些约束。
3、关于书目RDF词表
(1)目前的多实体书目模型的RDF词表,概念化书目事物(thing)为属于不同RDF类的资源集。
(2)FRBR定义类互斥。当描述类的实例的数据必须与描述完全不同类的实例的数据集成时,互斥会造成问题。
(3)定义的约束越少,RDF词表越可重用。从质量控制需求,对书目数据的校验约束应该采用应用纲要等方法,独立于词表表达。

IFLA《善本和手稿馆藏数字化规划指南》

微博上看到Cle_d介绍国际图联(IFLA)网站发布《善本和手稿馆藏数字化规划指南》。和本职相关度高,自然得下载,作为工作的一部分,认真细看。

Guidelines for Planning the Digitization of Rare Book and Manuscript Collections
Written by the IFLA Rare Book and Special Collections Section, September 2014. Revised in January 2015.

本指南完成于2014年9月。由于作为责任者的IFLA“善本与手稿部”改名“善本与特藏部”,2015年1月对责任者名称做修改后重新发布。不知道为什么不索性把指南名称也一同改了:《善本和特藏数字化规划指南》不也更合适么?至少在看过指南后,我认为修改名称会更合适。
本指南对规划特藏数字化计划提供指导框架,包括一些原则性的建议。文件中基本上没有提供相关标准等资料,不属于实践性的手册。

作为一个实践者,通读后发现自己在数字化项目规划过程中做对了一些事,但还是有不少失误。部分原因可以说是偷懒跟着别人走,没有意识到对特藏需要有特别的关注点;有时又觉得技术平台对我们而言是拿来的东西,自己无能为力,而实际上自己根本没有考虑过用户的需求。总结起来存在的主要问题是:
1、只考虑资料的智力内容,没有考虑原件外观可能对用户同样重要(如果说更重要的话,那用户根本不会考虑用扫描件了)。
2、只考虑资料的管理与保护,没有意识到数字化应该是为用户而做的。这不是指我们没考虑过用户,事实上我们还由用户提出需求来做数字化,但这也只是从图书馆角度的做法,并没有从用户角度考虑。
以上两个方面的结合点,就是在“忠于原件”部分,可以说完全无意识,因而做得相当差。
指南从项目计划开始,就把用户当作项目的一部分,了解用户的需求、向用户提供数字化信息;评估也不仅仅是数量,更考虑质量,考虑用户的使用体验。等等。指南作者均来自欧美,差距自现。

———- 学习笔记(摘译原文大纲 +【感想】) ———-
导论和范围
-导论
图书馆有责任提供对其数字馆藏的全球访问:公众需要它、学者期盼它。【“提供对研究资源免费和世界性的获取”的要求贯穿整个指南。对此,除版权方面,无论出于对外部环境还是内部政策的考虑,均无话可说。可以说,我们的数字化项目,从前提上就基本没有遵循这个指南。】
-范围
不同于专注技术问题、数字采集的特定方法或数字保存,本指南关注于概念规划和与潜在用户的协作,以达到所需结果及可持续的成果。【确实让我意识到了这两个问题,尤其是用户问题】

1 设计项目
开始项目选择时需要先回答的几个基本问题:
-项目的愿景?目标与目的?谁用?如何用?
-谁应当参与规划?【学者、用户、管理者、图书馆员工和技术人员】
-有没有外部资助机会?
-期望的复杂程度?能够达到的复杂程度?
-想数字化什么,为什么?
-资料有没有版权问题?
-数字化应当在馆内还是外部服务提供者实现?有没有空间、费用、设备和专业?外部厂商可提供什么?
-项目的最终格式是什么?有没有手段达到?
-有没有设想社会网站成分,例如众包转录文字或元数据强化?
-如何把质量管理结合进项目的所有阶段?

2 选择原件
-是否想数字化单一的、混杂的,比如“宝物”?
-是否想数字化现有馆藏?
-是否想创建新的“虚拟”馆藏?比如来自不同机构、具有共性的馆藏?
版权
权利拥有和“使用条款”在项目开发中也很重要,应当通过与协作方及其他第三方协议,必须在事先讨论同意,并且在项目开始前写下。此外,数字化对象本身可视为新版本。其结果是,每个数字化对象及馆藏的可获得性及使用条款应该向用户明示。【或许普遍存在的问题是:一方面对资源被盗版心存疑虑,另一方面并没有在页面提供足够的版权声明】

3 创建馆藏工作流程
第1步:检查和准备数字化资料:物理条件和现有元数据
第2步:数字化过程
-选择设备
-图像质量
在计划采集分辨率时,确保计算需要多少存储空间,考虑研究者体验的下载时间。希望只数字化馆藏一次,用于当前和未来需求时,应当考虑按当前期望最终格式1.5倍以上采集。【“1.5倍”说以前从未听说过】
-忠于原件
数字化善本和独特资料时,重要的是尽可能按原件的外观与感觉保存与还原。【对我来说,从未有过保存还原“外观与感觉”(look and feel)的意识。虽然在不少日本数字化项目中看到过图像边上的标尺/色标,但一直没有引起足够重视,从未想过我们也应该照此办理】
应当采集完整物理对象,而不仅仅是智力内容。必须拍摄整页前后(包括页边),不要在页边内修剪图像。装订册应当从头到尾拍摄,包含空白页及装帧。
为向研究者传递原件尺寸,图像中应该包含线性比例尺。一个装订单位中,不应该通过图像处理或转动对象改变页的方向。
在尝试还原原件外观与感觉时,颜色是最重要而复杂的问题之一。一个对象至少应该选择一个页或图像包含色标以方便颜色校准。每个设备应当以相同色值标准(如CIR-Lab系统)校准,并定期重校。显示硬件也应当校准。【我们似乎从来没有做过颜色校准】
-与保护有关的问题
步骤3:采集后图像处理和系统摄入
除了颜色修正,不应该做图像处理。关于是否或者何时允许颜色修正,机构应当有一个政策。政策还应当说明,有关采集后图像颜色操作的信息如何与用户沟通。【我们扫描后最常做的就是“图像处理”,比如去掉页面中的黑点、让页面美观之类,在我看来既费时又无意义,但似乎扫描图像的标准如此?】
每个数字化对象应当有一个永久标识符。【考虑过,一直没有实施】

4 元数据
适用于数字馆藏的4类元数据:
-书目(或描述)元数据
数字化后,应该在目录记录中加上指向数字版的链接,并在数字版中加上返回目录记录的链接。【只做了一半,目录中加了链接,但数字版元数据中没有返回链接】
-结构元数据
研究复杂对象如中世纪手稿、档案 、通信或相集,研究者必须能够从个别数字页面图像还原(或重组)物理项。图书馆……应当提供出色的校对和其他形式的结构化元数据。至少研究者要能确定页面或图像的原始顺序。……除了识别左页和右页,还应该给出总页数。其他重要元素包括编页方案、文本区分、重要引文和插图。【在某个特藏的元数据中竟然忽略了“插图”,实在不应该!】
-图像(或技术)元数据
通常由照相机或扫描仪自动采集,出现在文件头
-管理元数据

5 显示
用户正寻找免费开放获取、易于通过普通搜索引擎发现、用标准浏览器和插件时没有交互和显示问题、具有查看选项(包括双页显示和缩放能力)、标签功能(尤其为后续检索)、个性化注释能力、打印能力,以及下载、重用及组合能力。呈现格式应当易于浏览、可下载、易操作。【检索使用界面的功能需求】
向用户清晰显示版权限制或其他“使用条款”。【前已提及,这点经常被忽视】

6 宣传、推广和重用
主目录中包含数字项的书目描述及数字化文档的书目记录,并链接到文档。这些描述同样存储在数字化图书馆系统中,并链接回主目录。【前述只做了一半】

7 评估
与制作和使用相关的统计可以提供数量评估的良好起点,如:数字化图书、对象的数量,门户网页的访问数,数字对象被看、下载的次数,被引用或链接的次数等。
但是更重要且困难的是质量分析,需要来自用户的反馈:
-代理【扫描件】忠实原件的程度如何?图片是否原件的有效替代,或研究者需要至少看原件一次以完成其目的?【由于只考虑智力内容,从未考虑过扫描件是否足以代替原件的问题】
-产品可读性与可用性?
-技术多大程度上实现研究目的?
-资源被如何使用,被谁使用?
-资源被如何重用或改作他用?
-对物理馆藏使用的影响是什么?
有关数字化项目的统计,应当纳入所有图书馆活动和使用的常规报告。

8 数字馆藏的长期保存
图书馆至少应该维护其高分辨率数字馆藏于日常备份网络服务器,有流程和系统可以随时间流逝监控数字文件的完整性。在地理位置分散的多处存储多份拷贝也是可接受的保存策略。应当有流程用于日常评估升级馆藏或模拟软件功能的需求。【如何“监控数字文件的完整性”?这个问题亟待改进与加强】

9 建议摘要
-仔细规划项目,考虑目标与目的、版权限制、资助及机构的能力。由图书馆员、技术人员、保管员、研究者和管理者共同参与。
-预期学者和数字研究方法的需求,可能包含大数据、资源聚合、详细图像分析、数据可视化、地理空间映射、社会媒介等。
-借助数字化项目,提供对以往隐藏馆藏的访问,努力将它们虚拟地与其他机构的相关资料联合。
-总是数字化完整的智力实体而不是其部分。保留完整原件的外观与感觉,强化其作为历史产物的研究。数字化副本要保留原件的结构与上下文(环境),维护返回到目录记录的链接。
-永远不要在数字化后剔除原馆藏。与数字代理交互,永远不可能得到与物理馆藏交互可能得到的全部知识。
-提供高分辨率彩色图像,包含关于图像的技术信息、版权信息、比例和彩色图、缩放能力,可能时全文检索、文本全部或部分转写、地理空间座标。对数字资源使用永久标识符。
-提供尽可能多的描述性、结构化、技术性和管理性元数据。在永久库中提供链接返回到物理对象描述。
-对数字馆藏的创建存档,如同对新物理馆藏,让研究者可用这些信息
-提供对研究资源的全球免费访问,以易于集合、使用及导入数字研究与出版平台的方式,向用户提供下载数字对象、馆藏和元数据。
-通过外部门户和聚合服务曝露数字馆藏
-评估和记录项目成果
-确保数字馆藏的长期保存

JSC主席Gordon Dunsire论《RDA和语义网》

RDA开发联合指导委员会(JSC)现任主席Gordon Dunsire于2014年3月4日在意大利佛罗伦萨大学作了题为“RDA与语义网”的报告,PPT共27页,不易看明白,但其报告内容作为图书馆学演讲丛书的一种,由Casalini Libri同时出版印刷与电子版。“本文简单讨论为了语义网自然选择而改进RDA的适应度,需要进一步工作的某些关键领域”(p.42)。
Gordon从当年的RDA局外人[2014-5-6更正:2007年他是作为RDA推广组代表成为DCMI/RDA共同主席的]到成为JSC掌门人,几乎全面参与了始于2007年伦敦数据模型会议的RDA(以及IFLA)的语义网相关工作,书中主要部分是“II.背景”,在介绍RDA、语义网的基本知识之后,对“RDA和语义网”的来龙去脉娓娓道来,又以大量图示解说语义网环境下的RDA,对相关内容、现状及有待解决的问题解说细致,无疑是最权威的信息来源。要完整全面了解“RDA与语义网”,值得花时间细读此书。
对于RDA在语义网方面迄今为止的进展,Gordon说明JSC除了考虑若干与RDA元素集有关的讨论稿之外,由于“在2010到2013年的优先考虑是解决由AACR3[2]到RDA转移的零星问题、回应RDA测试实施、以及RDA工具包后续出版,因此对在开放元数据注册(OMR)上进一步开发元素集几无进展”(p.24)。而由于“RDA的RDF表达的未完成状态,没有完全的RDA语义网实施”(p.36)。

需要特别提醒注意的是,RDA首先是“内容标准”,其与语义网产生关联,主要是其注册的元素集与取值词表,或者说是由RDA衍生出来的“元数据标准”,而非其编目规则本身。念及此,不免想到正在开发中的BIBFRAME,也是“适应语义网环境的元数据标准”(如伦敦会议对RDA的期许)。Gordon在文末总结时对RDA应用前景似不甚乐观,称“RDA必须与其他物种协作或竞争以生存或继续生存”(p.42),而BIBFRAME自是“其他物种”之一。

———《RDA与语义网》———
RDA and the semantic Web : lectio magistralis in library science : Florence, Italy, Florence University, 4th March, 2014 / Gordon Dunsire. Fiesole (Firenze) : Casalini Libri, 2014. (Letture magistrali in biblioteconomia; 7) ISBN 978-88-7656-012-5 (print) ISBN 978-88-7656-013-2 (ebook)
电子书PDF下载 ( 94 p.; p.7-42为英文版,其后为意大利文版,p.88-93为参考文献) 报告PPT下载

I. 导论 (p.7)

II. 背景 (p.7-29)
1.RDA

2.语义网
一些基本概念:资源描述框架(RDF)、三元组(triple),统一资源标识符(URI)、文字值串(literal),命名空间(namespace)、限定名称(QName),RDF图(graph)、三元组链(chain)、三元组群(cluster),东西(thing),推理规则,取值词表(value vocabularies)

3.数据模型会议
2007年不列颠图书馆主办伦敦数据模型会议,讨论RDA与语义元数据所用数据模型的关系。“对书目元数据元素集细粒度和复杂性需求的共同认识,导致了与会者间富有成效的讨论”。会议建议的若干活动,由会后成立的DCMI/RDA工作组实施:
– 开发RDA元素词汇
– 开发RDA DC应用纲要,基于FRBR和FRAD
– 公开RDA取值词表,采用RDF、RDFS和SKOS

4.对IFLA标准的影响
“‘伦敦会议’对IFLA开发语义网界使用的书目标准有着直接影响”:
– 2007年FRBR评审组讨论了为FRBR模型创建一个元素集。FRBR命名空间项目:
2011年,FRBR元素集在开放元数据注册(OMR)上发布
2012年,FRAD和FRSAD元素集在OMR上发布
2014年初,FRBRoo元素集将在OMR上发布
– 2009年ISBD评审组成立ISBD/XML研究组:
2011年,ISBD元素集、第0项内容形式和媒介类型取值词表在OMR上发布
开发了一个ISBD用DC应用纲要
【参见:FRBR系列元素集与取值词表出版(2012年5月27日)】

5.RDA元素词表的开发
根据“RDA元素分析表”(RDA Element Analysis Table)。最初注册在2008年6月到2009年6月间。“遇到的最重要问题包括FRBR模型的语义约束(constraints)【见6】,以及表达其他项的集合项【见7】”。
【参见:JSC会议有关RDA注册的讨论与决定(2012年11月18日) 】
【参见:Diane谈RDA元数据注册的设计(2012年11月18日) 】
【参见:RDA注册元素集终于正式发布(2014年1月23日) 】

6.FRBR约束
“RDA元素分析表”中大多数特性和关系被赋予一个FRBR实体的“领域”,将RDA属性的语义局限于FRBR应用。为鼓励更广泛的重用,DCMI/RDA工作组开发了一个并列的RDA属性集,不限特定领域或范围。
另外,为FRBR第2组实体增加了一个超级类(super-class)“代理”,以解决多领域解释RDA元素。

7.集合项
指由子元素组成的元素(如“出版项”元素由“出版日期”、“出版地”、“出版者名称”等子元素组成)。DCMI/RDA工作组采用出自都柏林核心抽象模型(DCAM)的“语法编码方案”(Syntax Encoding Scheme)概念的延伸,以适应特定格式,但仍有争议,DCMI社区讨论中。

8.迄今为止的进展
JSC考虑的若干与RDA元素集有关的讨论稿:
– ISBD元素集与RDA元素集的校准-RDA附录D.1【参见:ISBD与RDA的对照(2014年1月17日)】
– RDA中的机器可操作数据元素:讨论稿(CCDA,2013)
– RDA第3章中机器可操作数据元素(CCDA,2012)【参见:RDA第3章机器可操作数据元素(讨论稿)(2012年6月25日)】
– 映射ISBD和RDA元素集
– RDA关系说明语的RDF表达:讨论稿及后续

9.基于FRBR和FRAD开发RDA DC应用纲要(“本项活动密切依赖于RDA元素集,因而至今几无进展”)

10.采用RDF、RDFS和SKOS公开RDA取值词表
【参见:RDA注册第一批词汇表出版(2011年8月2日)】
【参见:RDA注册词汇表:内容、媒介、载体类型出版(2012年1月27日) 】

11.五年来(“2011年DCMI/RDA工作组经评估,后来重命名为DCMI书目元数据工作组”)
【参见:图书馆从传统数据观走向关联数据及语义网:五周年(2012年5月16日) 】

III. RDA和RDF (p.29-31)
1.DCAM(“RDA元素”词表的2个元数据模型:DCAM和<indecs>

IV. RDA命名空间 (p.32)
1.取值词表(有65个取值词表,由DCMI/RDA工作组创建。其中22个词表为“发布”状态,包含约200个概念)

V. 元素集 (p.32-36)
1.RDA元素(衍生自“元素分析表”的特性属性有约300个,关系属性约30个)

2.关系说明语
“RDA文本清楚表明,关系说明语细化关系。因此每个说明语应当作为RDF关系属性的子属性表达。DCMI/RDA工作组采用该方法,得到JSC批准”。但“元素分析表”将“关系说明语”视同取值词表。“JSC正监控这一交替表达的需求,组合使用两种方法,如MARC21关系词代码命名空间”
在RDA的RDF表达中,有约700个关系说明语属性及其倒转(逆属性,如(abridged as (work))与(abridgement of (work)),因此RDA元素集中属性总数超过1000个。

3.RDA/ONIX框架
JSC同意开发一个元素集表达框架本体,作为RDA与其他载体和内容术语表(如ISBD第0项)的互操作中心(hub)。本项工作有可能在2014年展开,JSC已经设立一个工作组。

VI. 语义网中的RDA (p.36-41)
“因为RDA的RDF表达的未完成状态,没有完全的RDA语义网实施”。但“现有‘新提出’元素集的若干属性已用于关联数据项目与服务”。
1.RDA领域模型
2.益处

VII. 结论 (p.42)
分析了伦敦数据模型会议提出的预期益处的实现状况:
– 图书馆界得到与Web架构兼容的元数据标准,与其他语义网计划完全互操作【元素词汇已发布】
– DCMI社区得到坚定基于DCAM和FRBR的图书馆应用纲要(将是其他可以遵循的高层纲要范本)【尚在任务清单中】
– 语义网社区得到一个可重用的、重要的经慎重考虑的元数据术语池【元素词汇已发布,取值词表部分发布】
– 让RDA得到更广泛采用(uptake)【有待观察】
“RDA是语义网生态系统中一个进化中的物种,在持续改变的环境中,仍在建立其生态区位(niche)的过程中……RDA必须与其他物种协作或竞争以生存或继续生存……”。