IFLA《善本和手稿馆藏数字化规划指南》

微博上看到Cle_d介绍国际图联(IFLA)网站发布《善本和手稿馆藏数字化规划指南》。和本职相关度高,自然得下载,作为工作的一部分,认真细看。

Guidelines for Planning the Digitization of Rare Book and Manuscript Collections
Written by the IFLA Rare Book and Special Collections Section, September 2014. Revised in January 2015.

本指南完成于2014年9月。由于作为责任者的IFLA“善本与手稿部”改名“善本与特藏部”,2015年1月对责任者名称做修改后重新发布。不知道为什么不索性把指南名称也一同改了:《善本和特藏数字化规划指南》不也更合适么?至少在看过指南后,我认为修改名称会更合适。
本指南对规划特藏数字化计划提供指导框架,包括一些原则性的建议。文件中基本上没有提供相关标准等资料,不属于实践性的手册。

作为一个实践者,通读后发现自己在数字化项目规划过程中做对了一些事,但还是有不少失误。部分原因可以说是偷懒跟着别人走,没有意识到对特藏需要有特别的关注点;有时又觉得技术平台对我们而言是拿来的东西,自己无能为力,而实际上自己根本没有考虑过用户的需求。总结起来存在的主要问题是:
1、只考虑资料的智力内容,没有考虑原件外观可能对用户同样重要(如果说更重要的话,那用户根本不会考虑用扫描件了)。
2、只考虑资料的管理与保护,没有意识到数字化应该是为用户而做的。这不是指我们没考虑过用户,事实上我们还由用户提出需求来做数字化,但这也只是从图书馆角度的做法,并没有从用户角度考虑。
以上两个方面的结合点,就是在“忠于原件”部分,可以说完全无意识,因而做得相当差。
指南从项目计划开始,就把用户当作项目的一部分,了解用户的需求、向用户提供数字化信息;评估也不仅仅是数量,更考虑质量,考虑用户的使用体验。等等。指南作者均来自欧美,差距自现。

———- 学习笔记(摘译原文大纲 +【感想】) ———-
导论和范围
-导论
图书馆有责任提供对其数字馆藏的全球访问:公众需要它、学者期盼它。【“提供对研究资源免费和世界性的获取”的要求贯穿整个指南。对此,除版权方面,无论出于对外部环境还是内部政策的考虑,均无话可说。可以说,我们的数字化项目,从前提上就基本没有遵循这个指南。】
-范围
不同于专注技术问题、数字采集的特定方法或数字保存,本指南关注于概念规划和与潜在用户的协作,以达到所需结果及可持续的成果。【确实让我意识到了这两个问题,尤其是用户问题】

1 设计项目
开始项目选择时需要先回答的几个基本问题:
-项目的愿景?目标与目的?谁用?如何用?
-谁应当参与规划?【学者、用户、管理者、图书馆员工和技术人员】
-有没有外部资助机会?
-期望的复杂程度?能够达到的复杂程度?
-想数字化什么,为什么?
-资料有没有版权问题?
-数字化应当在馆内还是外部服务提供者实现?有没有空间、费用、设备和专业?外部厂商可提供什么?
-项目的最终格式是什么?有没有手段达到?
-有没有设想社会网站成分,例如众包转录文字或元数据强化?
-如何把质量管理结合进项目的所有阶段?

2 选择原件
-是否想数字化单一的、混杂的,比如“宝物”?
-是否想数字化现有馆藏?
-是否想创建新的“虚拟”馆藏?比如来自不同机构、具有共性的馆藏?
版权
权利拥有和“使用条款”在项目开发中也很重要,应当通过与协作方及其他第三方协议,必须在事先讨论同意,并且在项目开始前写下。此外,数字化对象本身可视为新版本。其结果是,每个数字化对象及馆藏的可获得性及使用条款应该向用户明示。【或许普遍存在的问题是:一方面对资源被盗版心存疑虑,另一方面并没有在页面提供足够的版权声明】

3 创建馆藏工作流程
第1步:检查和准备数字化资料:物理条件和现有元数据
第2步:数字化过程
-选择设备
-图像质量
在计划采集分辨率时,确保计算需要多少存储空间,考虑研究者体验的下载时间。希望只数字化馆藏一次,用于当前和未来需求时,应当考虑按当前期望最终格式1.5倍以上采集。【“1.5倍”说以前从未听说过】
-忠于原件
数字化善本和独特资料时,重要的是尽可能按原件的外观与感觉保存与还原。【对我来说,从未有过保存还原“外观与感觉”(look and feel)的意识。虽然在不少日本数字化项目中看到过图像边上的标尺/色标,但一直没有引起足够重视,从未想过我们也应该照此办理】
应当采集完整物理对象,而不仅仅是智力内容。必须拍摄整页前后(包括页边),不要在页边内修剪图像。装订册应当从头到尾拍摄,包含空白页及装帧。
为向研究者传递原件尺寸,图像中应该包含线性比例尺。一个装订单位中,不应该通过图像处理或转动对象改变页的方向。
在尝试还原原件外观与感觉时,颜色是最重要而复杂的问题之一。一个对象至少应该选择一个页或图像包含色标以方便颜色校准。每个设备应当以相同色值标准(如CIR-Lab系统)校准,并定期重校。显示硬件也应当校准。【我们似乎从来没有做过颜色校准】
-与保护有关的问题
步骤3:采集后图像处理和系统摄入
除了颜色修正,不应该做图像处理。关于是否或者何时允许颜色修正,机构应当有一个政策。政策还应当说明,有关采集后图像颜色操作的信息如何与用户沟通。【我们扫描后最常做的就是“图像处理”,比如去掉页面中的黑点、让页面美观之类,在我看来既费时又无意义,但似乎扫描图像的标准如此?】
每个数字化对象应当有一个永久标识符。【考虑过,一直没有实施】

4 元数据
适用于数字馆藏的4类元数据:
-书目(或描述)元数据
数字化后,应该在目录记录中加上指向数字版的链接,并在数字版中加上返回目录记录的链接。【只做了一半,目录中加了链接,但数字版元数据中没有返回链接】
-结构元数据
研究复杂对象如中世纪手稿、档案 、通信或相集,研究者必须能够从个别数字页面图像还原(或重组)物理项。图书馆……应当提供出色的校对和其他形式的结构化元数据。至少研究者要能确定页面或图像的原始顺序。……除了识别左页和右页,还应该给出总页数。其他重要元素包括编页方案、文本区分、重要引文和插图。【在某个特藏的元数据中竟然忽略了“插图”,实在不应该!】
-图像(或技术)元数据
通常由照相机或扫描仪自动采集,出现在文件头
-管理元数据

5 显示
用户正寻找免费开放获取、易于通过普通搜索引擎发现、用标准浏览器和插件时没有交互和显示问题、具有查看选项(包括双页显示和缩放能力)、标签功能(尤其为后续检索)、个性化注释能力、打印能力,以及下载、重用及组合能力。呈现格式应当易于浏览、可下载、易操作。【检索使用界面的功能需求】
向用户清晰显示版权限制或其他“使用条款”。【前已提及,这点经常被忽视】

6 宣传、推广和重用
主目录中包含数字项的书目描述及数字化文档的书目记录,并链接到文档。这些描述同样存储在数字化图书馆系统中,并链接回主目录。【前述只做了一半】

7 评估
与制作和使用相关的统计可以提供数量评估的良好起点,如:数字化图书、对象的数量,门户网页的访问数,数字对象被看、下载的次数,被引用或链接的次数等。
但是更重要且困难的是质量分析,需要来自用户的反馈:
-代理【扫描件】忠实原件的程度如何?图片是否原件的有效替代,或研究者需要至少看原件一次以完成其目的?【由于只考虑智力内容,从未考虑过扫描件是否足以代替原件的问题】
-产品可读性与可用性?
-技术多大程度上实现研究目的?
-资源被如何使用,被谁使用?
-资源被如何重用或改作他用?
-对物理馆藏使用的影响是什么?
有关数字化项目的统计,应当纳入所有图书馆活动和使用的常规报告。

8 数字馆藏的长期保存
图书馆至少应该维护其高分辨率数字馆藏于日常备份网络服务器,有流程和系统可以随时间流逝监控数字文件的完整性。在地理位置分散的多处存储多份拷贝也是可接受的保存策略。应当有流程用于日常评估升级馆藏或模拟软件功能的需求。【如何“监控数字文件的完整性”?这个问题亟待改进与加强】

9 建议摘要
-仔细规划项目,考虑目标与目的、版权限制、资助及机构的能力。由图书馆员、技术人员、保管员、研究者和管理者共同参与。
-预期学者和数字研究方法的需求,可能包含大数据、资源聚合、详细图像分析、数据可视化、地理空间映射、社会媒介等。
-借助数字化项目,提供对以往隐藏馆藏的访问,努力将它们虚拟地与其他机构的相关资料联合。
-总是数字化完整的智力实体而不是其部分。保留完整原件的外观与感觉,强化其作为历史产物的研究。数字化副本要保留原件的结构与上下文(环境),维护返回到目录记录的链接。
-永远不要在数字化后剔除原馆藏。与数字代理交互,永远不可能得到与物理馆藏交互可能得到的全部知识。
-提供高分辨率彩色图像,包含关于图像的技术信息、版权信息、比例和彩色图、缩放能力,可能时全文检索、文本全部或部分转写、地理空间座标。对数字资源使用永久标识符。
-提供尽可能多的描述性、结构化、技术性和管理性元数据。在永久库中提供链接返回到物理对象描述。
-对数字馆藏的创建存档,如同对新物理馆藏,让研究者可用这些信息
-提供对研究资源的全球免费访问,以易于集合、使用及导入数字研究与出版平台的方式,向用户提供下载数字对象、馆藏和元数据。
-通过外部门户和聚合服务曝露数字馆藏
-评估和记录项目成果
-确保数字馆藏的长期保存

JSC主席Gordon Dunsire论《RDA和语义网》

RDA开发联合指导委员会(JSC)现任主席Gordon Dunsire于2014年3月4日在意大利佛罗伦萨大学作了题为“RDA与语义网”的报告,PPT共27页,不易看明白,但其报告内容作为图书馆学演讲丛书的一种,由Casalini Libri同时出版印刷与电子版。“本文简单讨论为了语义网自然选择而改进RDA的适应度,需要进一步工作的某些关键领域”(p.42)。
Gordon从当年的RDA局外人[2014-5-6更正:2007年他是作为RDA推广组代表成为DCMI/RDA共同主席的]到成为JSC掌门人,几乎全面参与了始于2007年伦敦数据模型会议的RDA(以及IFLA)的语义网相关工作,书中主要部分是“II.背景”,在介绍RDA、语义网的基本知识之后,对“RDA和语义网”的来龙去脉娓娓道来,又以大量图示解说语义网环境下的RDA,对相关内容、现状及有待解决的问题解说细致,无疑是最权威的信息来源。要完整全面了解“RDA与语义网”,值得花时间细读此书。
对于RDA在语义网方面迄今为止的进展,Gordon说明JSC除了考虑若干与RDA元素集有关的讨论稿之外,由于“在2010到2013年的优先考虑是解决由AACR3[2]到RDA转移的零星问题、回应RDA测试实施、以及RDA工具包后续出版,因此对在开放元数据注册(OMR)上进一步开发元素集几无进展”(p.24)。而由于“RDA的RDF表达的未完成状态,没有完全的RDA语义网实施”(p.36)。

需要特别提醒注意的是,RDA首先是“内容标准”,其与语义网产生关联,主要是其注册的元素集与取值词表,或者说是由RDA衍生出来的“元数据标准”,而非其编目规则本身。念及此,不免想到正在开发中的BIBFRAME,也是“适应语义网环境的元数据标准”(如伦敦会议对RDA的期许)。Gordon在文末总结时对RDA应用前景似不甚乐观,称“RDA必须与其他物种协作或竞争以生存或继续生存”(p.42),而BIBFRAME自是“其他物种”之一。

———《RDA与语义网》———
RDA and the semantic Web : lectio magistralis in library science : Florence, Italy, Florence University, 4th March, 2014 / Gordon Dunsire. Fiesole (Firenze) : Casalini Libri, 2014. (Letture magistrali in biblioteconomia; 7) ISBN 978-88-7656-012-5 (print) ISBN 978-88-7656-013-2 (ebook)
电子书PDF下载 ( 94 p.; p.7-42为英文版,其后为意大利文版,p.88-93为参考文献) 报告PPT下载

I. 导论 (p.7)

II. 背景 (p.7-29)
1.RDA

2.语义网
一些基本概念:资源描述框架(RDF)、三元组(triple),统一资源标识符(URI)、文字值串(literal),命名空间(namespace)、限定名称(QName),RDF图(graph)、三元组链(chain)、三元组群(cluster),东西(thing),推理规则,取值词表(value vocabularies)

3.数据模型会议
2007年不列颠图书馆主办伦敦数据模型会议,讨论RDA与语义元数据所用数据模型的关系。“对书目元数据元素集细粒度和复杂性需求的共同认识,导致了与会者间富有成效的讨论”。会议建议的若干活动,由会后成立的DCMI/RDA工作组实施:
– 开发RDA元素词汇
– 开发RDA DC应用纲要,基于FRBR和FRAD
– 公开RDA取值词表,采用RDF、RDFS和SKOS

4.对IFLA标准的影响
“‘伦敦会议’对IFLA开发语义网界使用的书目标准有着直接影响”:
– 2007年FRBR评审组讨论了为FRBR模型创建一个元素集。FRBR命名空间项目:
2011年,FRBR元素集在开放元数据注册(OMR)上发布
2012年,FRAD和FRSAD元素集在OMR上发布
2014年初,FRBRoo元素集将在OMR上发布
– 2009年ISBD评审组成立ISBD/XML研究组:
2011年,ISBD元素集、第0项内容形式和媒介类型取值词表在OMR上发布
开发了一个ISBD用DC应用纲要
【参见:FRBR系列元素集与取值词表出版(2012年5月27日)】

5.RDA元素词表的开发
根据“RDA元素分析表”(RDA Element Analysis Table)。最初注册在2008年6月到2009年6月间。“遇到的最重要问题包括FRBR模型的语义约束(constraints)【见6】,以及表达其他项的集合项【见7】”。
【参见:JSC会议有关RDA注册的讨论与决定(2012年11月18日) 】
【参见:Diane谈RDA元数据注册的设计(2012年11月18日) 】
【参见:RDA注册元素集终于正式发布(2014年1月23日) 】

6.FRBR约束
“RDA元素分析表”中大多数特性和关系被赋予一个FRBR实体的“领域”,将RDA属性的语义局限于FRBR应用。为鼓励更广泛的重用,DCMI/RDA工作组开发了一个并列的RDA属性集,不限特定领域或范围。
另外,为FRBR第2组实体增加了一个超级类(super-class)“代理”,以解决多领域解释RDA元素。

7.集合项
指由子元素组成的元素(如“出版项”元素由“出版日期”、“出版地”、“出版者名称”等子元素组成)。DCMI/RDA工作组采用出自都柏林核心抽象模型(DCAM)的“语法编码方案”(Syntax Encoding Scheme)概念的延伸,以适应特定格式,但仍有争议,DCMI社区讨论中。

8.迄今为止的进展
JSC考虑的若干与RDA元素集有关的讨论稿:
– ISBD元素集与RDA元素集的校准-RDA附录D.1【参见:ISBD与RDA的对照(2014年1月17日)】
– RDA中的机器可操作数据元素:讨论稿(CCDA,2013)
– RDA第3章中机器可操作数据元素(CCDA,2012)【参见:RDA第3章机器可操作数据元素(讨论稿)(2012年6月25日)】
– 映射ISBD和RDA元素集
– RDA关系说明语的RDF表达:讨论稿及后续

9.基于FRBR和FRAD开发RDA DC应用纲要(“本项活动密切依赖于RDA元素集,因而至今几无进展”)

10.采用RDF、RDFS和SKOS公开RDA取值词表
【参见:RDA注册第一批词汇表出版(2011年8月2日)】
【参见:RDA注册词汇表:内容、媒介、载体类型出版(2012年1月27日) 】

11.五年来(“2011年DCMI/RDA工作组经评估,后来重命名为DCMI书目元数据工作组”)
【参见:图书馆从传统数据观走向关联数据及语义网:五周年(2012年5月16日) 】

III. RDA和RDF (p.29-31)
1.DCAM(“RDA元素”词表的2个元数据模型:DCAM和<indecs>

IV. RDA命名空间 (p.32)
1.取值词表(有65个取值词表,由DCMI/RDA工作组创建。其中22个词表为“发布”状态,包含约200个概念)

V. 元素集 (p.32-36)
1.RDA元素(衍生自“元素分析表”的特性属性有约300个,关系属性约30个)

2.关系说明语
“RDA文本清楚表明,关系说明语细化关系。因此每个说明语应当作为RDF关系属性的子属性表达。DCMI/RDA工作组采用该方法,得到JSC批准”。但“元素分析表”将“关系说明语”视同取值词表。“JSC正监控这一交替表达的需求,组合使用两种方法,如MARC21关系词代码命名空间”
在RDA的RDF表达中,有约700个关系说明语属性及其倒转(逆属性,如(abridged as (work))与(abridgement of (work)),因此RDA元素集中属性总数超过1000个。

3.RDA/ONIX框架
JSC同意开发一个元素集表达框架本体,作为RDA与其他载体和内容术语表(如ISBD第0项)的互操作中心(hub)。本项工作有可能在2014年展开,JSC已经设立一个工作组。

VI. 语义网中的RDA (p.36-41)
“因为RDA的RDF表达的未完成状态,没有完全的RDA语义网实施”。但“现有‘新提出’元素集的若干属性已用于关联数据项目与服务”。
1.RDA领域模型
2.益处

VII. 结论 (p.42)
分析了伦敦数据模型会议提出的预期益处的实现状况:
– 图书馆界得到与Web架构兼容的元数据标准,与其他语义网计划完全互操作【元素词汇已发布】
– DCMI社区得到坚定基于DCAM和FRBR的图书馆应用纲要(将是其他可以遵循的高层纲要范本)【尚在任务清单中】
– 语义网社区得到一个可重用的、重要的经慎重考虑的元数据术语池【元素词汇已发布,取值词表部分发布】
– 让RDA得到更广泛采用(uptake)【有待观察】
“RDA是语义网生态系统中一个进化中的物种,在持续改变的环境中,仍在建立其生态区位(niche)的过程中……RDA必须与其他物种协作或竞争以生存或继续生存……”。

FRBRoo的连续出版物扩展——PRESSoo

PRESSoo由ISSN国际中心和ISSN评审组的代表,以及法国国家图书馆代表组成的工作组开发,目标是应用FRBR家族模型到连续出版物和连续性资源。
ISSN网站上的PRESSoo页面:PRESSoo
2013年3月发布了0.1版征求意见:
PRESSOO, Extension of CIDOC CRM and FRBROO for the modelling of bibliographic information pertaining to periodicals, Version 0.1. March 2013 / Editor: Patrick Le Boeuf (BnF)(48页PDF文件)
导论起始的定义:“PRESSoo,一个意在抓取与表达关于连续性资源书目信息的基础语义的正式本体,特别针对期刊(杂志、报纸等)。PRESSoo是FRBRoo的扩展,而FRBROO本身是CIDOC CRM的扩展。”

连续出版物的主要FRBRoo类是连续作品 F18。导论中包括13幅FRBRoo、PRESSoo及CIDOC CRM的类与属性间关系的图示,有助于了解连续出版物中的各种关系。文档最后是ISSN手册中的数据元素到PRESSoo的对照清单(含PRESSoo、FRBRoo及CIDOC CRM的类与属性,PRESSoo继承了后两者的类与属性)。

PRESSoo定义了12个类(Z1-Z12),43个属性(Y1-Y43)。属性比较好理解,基本上是期刊的各种演变关系。类可分为两部分,一是各种事件:
– 作品概念 F27:连续出版物转换 Z1、分离 Z3
– 活动 E7:吸收 Z2、发行规则[刊期]改变 Z5、元数据管理 Z8
– 出版事件 F30:临时代替 Z4、开始出版 Z6、结束出版 Z7
另外一部分不知道怎么归类
– 存储单元 Z9(如装订本)
– 编号模式 Z10(如数字、月份)
– URL Z11
– 发行规则[刊期] Z12

参见:FRBRoo读后(2014年2月9日)