IFLA《善本和手稿馆藏数字化规划指南》

微博上看到Cle_d介绍国际图联(IFLA)网站发布《善本和手稿馆藏数字化规划指南》。和本职相关度高,自然得下载,作为工作的一部分,认真细看。

Guidelines for Planning the Digitization of Rare Book and Manuscript Collections
Written by the IFLA Rare Book and Special Collections Section, September 2014. Revised in January 2015.

本指南完成于2014年9月。由于作为责任者的IFLA“善本与手稿部”改名“善本与特藏部”,2015年1月对责任者名称做修改后重新发布。不知道为什么不索性把指南名称也一同改了:《善本和特藏数字化规划指南》不也更合适么?至少在看过指南后,我认为修改名称会更合适。
本指南对规划特藏数字化计划提供指导框架,包括一些原则性的建议。文件中基本上没有提供相关标准等资料,不属于实践性的手册。

作为一个实践者,通读后发现自己在数字化项目规划过程中做对了一些事,但还是有不少失误。部分原因可以说是偷懒跟着别人走,没有意识到对特藏需要有特别的关注点;有时又觉得技术平台对我们而言是拿来的东西,自己无能为力,而实际上自己根本没有考虑过用户的需求。总结起来存在的主要问题是:
1、只考虑资料的智力内容,没有考虑原件外观可能对用户同样重要(如果说更重要的话,那用户根本不会考虑用扫描件了)。
2、只考虑资料的管理与保护,没有意识到数字化应该是为用户而做的。这不是指我们没考虑过用户,事实上我们还由用户提出需求来做数字化,但这也只是从图书馆角度的做法,并没有从用户角度考虑。
以上两个方面的结合点,就是在“忠于原件”部分,可以说完全无意识,因而做得相当差。
指南从项目计划开始,就把用户当作项目的一部分,了解用户的需求、向用户提供数字化信息;评估也不仅仅是数量,更考虑质量,考虑用户的使用体验。等等。指南作者均来自欧美,差距自现。

———- 学习笔记(摘译原文大纲 +【感想】) ———-
导论和范围
-导论
图书馆有责任提供对其数字馆藏的全球访问:公众需要它、学者期盼它。【“提供对研究资源免费和世界性的获取”的要求贯穿整个指南。对此,除版权方面,无论出于对外部环境还是内部政策的考虑,均无话可说。可以说,我们的数字化项目,从前提上就基本没有遵循这个指南。】
-范围
不同于专注技术问题、数字采集的特定方法或数字保存,本指南关注于概念规划和与潜在用户的协作,以达到所需结果及可持续的成果。【确实让我意识到了这两个问题,尤其是用户问题】

1 设计项目
开始项目选择时需要先回答的几个基本问题:
-项目的愿景?目标与目的?谁用?如何用?
-谁应当参与规划?【学者、用户、管理者、图书馆员工和技术人员】
-有没有外部资助机会?
-期望的复杂程度?能够达到的复杂程度?
-想数字化什么,为什么?
-资料有没有版权问题?
-数字化应当在馆内还是外部服务提供者实现?有没有空间、费用、设备和专业?外部厂商可提供什么?
-项目的最终格式是什么?有没有手段达到?
-有没有设想社会网站成分,例如众包转录文字或元数据强化?
-如何把质量管理结合进项目的所有阶段?

2 选择原件
-是否想数字化单一的、混杂的,比如“宝物”?
-是否想数字化现有馆藏?
-是否想创建新的“虚拟”馆藏?比如来自不同机构、具有共性的馆藏?
版权
权利拥有和“使用条款”在项目开发中也很重要,应当通过与协作方及其他第三方协议,必须在事先讨论同意,并且在项目开始前写下。此外,数字化对象本身可视为新版本。其结果是,每个数字化对象及馆藏的可获得性及使用条款应该向用户明示。【或许普遍存在的问题是:一方面对资源被盗版心存疑虑,另一方面并没有在页面提供足够的版权声明】

3 创建馆藏工作流程
第1步:检查和准备数字化资料:物理条件和现有元数据
第2步:数字化过程
-选择设备
-图像质量
在计划采集分辨率时,确保计算需要多少存储空间,考虑研究者体验的下载时间。希望只数字化馆藏一次,用于当前和未来需求时,应当考虑按当前期望最终格式1.5倍以上采集。【“1.5倍”说以前从未听说过】
-忠于原件
数字化善本和独特资料时,重要的是尽可能按原件的外观与感觉保存与还原。【对我来说,从未有过保存还原“外观与感觉”(look and feel)的意识。虽然在不少日本数字化项目中看到过图像边上的标尺/色标,但一直没有引起足够重视,从未想过我们也应该照此办理】
应当采集完整物理对象,而不仅仅是智力内容。必须拍摄整页前后(包括页边),不要在页边内修剪图像。装订册应当从头到尾拍摄,包含空白页及装帧。
为向研究者传递原件尺寸,图像中应该包含线性比例尺。一个装订单位中,不应该通过图像处理或转动对象改变页的方向。
在尝试还原原件外观与感觉时,颜色是最重要而复杂的问题之一。一个对象至少应该选择一个页或图像包含色标以方便颜色校准。每个设备应当以相同色值标准(如CIR-Lab系统)校准,并定期重校。显示硬件也应当校准。【我们似乎从来没有做过颜色校准】
-与保护有关的问题
步骤3:采集后图像处理和系统摄入
除了颜色修正,不应该做图像处理。关于是否或者何时允许颜色修正,机构应当有一个政策。政策还应当说明,有关采集后图像颜色操作的信息如何与用户沟通。【我们扫描后最常做的就是“图像处理”,比如去掉页面中的黑点、让页面美观之类,在我看来既费时又无意义,但似乎扫描图像的标准如此?】
每个数字化对象应当有一个永久标识符。【考虑过,一直没有实施】

4 元数据
适用于数字馆藏的4类元数据:
-书目(或描述)元数据
数字化后,应该在目录记录中加上指向数字版的链接,并在数字版中加上返回目录记录的链接。【只做了一半,目录中加了链接,但数字版元数据中没有返回链接】
-结构元数据
研究复杂对象如中世纪手稿、档案 、通信或相集,研究者必须能够从个别数字页面图像还原(或重组)物理项。图书馆……应当提供出色的校对和其他形式的结构化元数据。至少研究者要能确定页面或图像的原始顺序。……除了识别左页和右页,还应该给出总页数。其他重要元素包括编页方案、文本区分、重要引文和插图。【在某个特藏的元数据中竟然忽略了“插图”,实在不应该!】
-图像(或技术)元数据
通常由照相机或扫描仪自动采集,出现在文件头
-管理元数据

5 显示
用户正寻找免费开放获取、易于通过普通搜索引擎发现、用标准浏览器和插件时没有交互和显示问题、具有查看选项(包括双页显示和缩放能力)、标签功能(尤其为后续检索)、个性化注释能力、打印能力,以及下载、重用及组合能力。呈现格式应当易于浏览、可下载、易操作。【检索使用界面的功能需求】
向用户清晰显示版权限制或其他“使用条款”。【前已提及,这点经常被忽视】

6 宣传、推广和重用
主目录中包含数字项的书目描述及数字化文档的书目记录,并链接到文档。这些描述同样存储在数字化图书馆系统中,并链接回主目录。【前述只做了一半】

7 评估
与制作和使用相关的统计可以提供数量评估的良好起点,如:数字化图书、对象的数量,门户网页的访问数,数字对象被看、下载的次数,被引用或链接的次数等。
但是更重要且困难的是质量分析,需要来自用户的反馈:
-代理【扫描件】忠实原件的程度如何?图片是否原件的有效替代,或研究者需要至少看原件一次以完成其目的?【由于只考虑智力内容,从未考虑过扫描件是否足以代替原件的问题】
-产品可读性与可用性?
-技术多大程度上实现研究目的?
-资源被如何使用,被谁使用?
-资源被如何重用或改作他用?
-对物理馆藏使用的影响是什么?
有关数字化项目的统计,应当纳入所有图书馆活动和使用的常规报告。

8 数字馆藏的长期保存
图书馆至少应该维护其高分辨率数字馆藏于日常备份网络服务器,有流程和系统可以随时间流逝监控数字文件的完整性。在地理位置分散的多处存储多份拷贝也是可接受的保存策略。应当有流程用于日常评估升级馆藏或模拟软件功能的需求。【如何“监控数字文件的完整性”?这个问题亟待改进与加强】

9 建议摘要
-仔细规划项目,考虑目标与目的、版权限制、资助及机构的能力。由图书馆员、技术人员、保管员、研究者和管理者共同参与。
-预期学者和数字研究方法的需求,可能包含大数据、资源聚合、详细图像分析、数据可视化、地理空间映射、社会媒介等。
-借助数字化项目,提供对以往隐藏馆藏的访问,努力将它们虚拟地与其他机构的相关资料联合。
-总是数字化完整的智力实体而不是其部分。保留完整原件的外观与感觉,强化其作为历史产物的研究。数字化副本要保留原件的结构与上下文(环境),维护返回到目录记录的链接。
-永远不要在数字化后剔除原馆藏。与数字代理交互,永远不可能得到与物理馆藏交互可能得到的全部知识。
-提供高分辨率彩色图像,包含关于图像的技术信息、版权信息、比例和彩色图、缩放能力,可能时全文检索、文本全部或部分转写、地理空间座标。对数字资源使用永久标识符。
-提供尽可能多的描述性、结构化、技术性和管理性元数据。在永久库中提供链接返回到物理对象描述。
-对数字馆藏的创建存档,如同对新物理馆藏,让研究者可用这些信息
-提供对研究资源的全球免费访问,以易于集合、使用及导入数字研究与出版平台的方式,向用户提供下载数字对象、馆藏和元数据。
-通过外部门户和聚合服务曝露数字馆藏
-评估和记录项目成果
-确保数字馆藏的长期保存

关于资源同步框架规范(ResourceSync)

OAI (Open Archives Initiative) 致力于“开发与推进有助于内容有效传播的互操作标准。”目前的项目包括鼎鼎大名的OAI-PMH、OAI-ORE,以及最新的ResourceSync。
ResourceSync(资源同步)于2014年4月成为美国国家标准
ANSI/NISO Z39.99-2014, ResourceSync Framework Specification

ResourceSync基于网站地图协议(Sitemap protocol),为web提供一个同步框架,通过Resource List(资源清单)、Resource Dump(资源仓库=打包文件)、Change Lists(变化清单)或Change Dumps(变化仓库)方式,使得第三方系统(或者镜像)可以与服务器不断变化的内容保持同步(增加、更新、删除)。

目前可以查到的中文资料很少,汇总如下:

国家标准文献共享服务平台工作简报 2014年6月 第3期 国外标准化动态(p.20)
美国国家信息标准组织(NISO)和开放档案计划(OAI)发布美国国家标准ResourceSync框架规范——为网络服务器自动资源同步提供方法
(全文pdf 114MB,龟速下载,全文待补[update 2015-1-29 附后])

编目精灵:从NISO工作组看当前技术热点(2013年4月26日)
介绍“Working Group Connection”2013年4月号,NISO三个委员会之一Discovery to Delivery Topic Committee(发现到传递专题委员会)工作之一:
ResourceSync Working Group 资源同步工作组:研究、开发、原型、测试与布署大规模Web资源同步,意在同步对象本身,不仅仅是其元数据,建立在OAI-PMH策略上。核心小组得到斯隆基金资助,也得到包括其他产业及研究伙伴(部分受JISC赞助)的助力;年初发布公示了beta版规范,希望5月底完成最终规范供投票批准;实施规范包括Python和Jave代码库,以及DSpace专用Java实施,正进行中,马上会提供

梁娜, 张晓林. 机构知识库的互操作需求和互操作规范框架. 现代图书情报技术, 2013, 29(9): 1-7
“OAI联盟还提出OAI-RSF[41], 通过Resource List、Change List、Resource Dump和Change Dump的交换来支持不同IR间的内容动态更新。”
[41] Open Archives Initiative-ResourceSync Framework Specification – Beta Draft[EB/OL]. (2013-08-09) . [2013-08-20]. http://www.openarchives.org/rs/0.9.1/resourcesync.

———-国家标准文献共享服务平台工作简报(2014年6月 第3期,p.20-21)———-
美国国家信息标准组织(NISO)和开放档案计划(OAI)发布美国国家标准ResourceSync框架规范——为网络服务器自动资源同步提供方法

美国国家信息标准组织(NISO)和开放档案计划(OAI)宜布出版ResourceSync框架规范(ANSI/NISO Z39.99-2014)——一个新的用于网上详细介绍一台报务器可以执行允许第三方系统,保持其不断发展的资源同步各种功能的美国国家标准。该ResourceSync联合项目由Alfred P. Sloan Foundation和Jisc支持资助,开始制定有关网络资源实时同步的一个新的开放标准。
“越来越多的大型数字馆藏可从多个虚拟主机的位置提供服务,会被缓存在多台服务器上,并通过几个服务系统被利用,”Los Alamos国家实验室科学家、OAI执行总监、以及ResourceSync工作组联席主席Herbert Van de Sompel解释说。“由于网络资源的不断变化,这种内容激增导致利用一个及时和准确的方式,进行不断内容同步的服务器保持服务成为具有挑战性的问题。我们通过两年合作努力制定了该现范,它可以用来满足各种各样使用案例的挑战,通过制定标准规范和已被广泛采用的协议间对接使之变为可能。”
“该OAI协议的元数据收割(PMH)2.0规范,可以用来有效地同步资源的元数据,”康奈尔大学IT应用开发主管Simeon Warner说道,“但同步资源本身从未被指定。虽然有些资源同步方式存在,它们通常是临时性的,涉及个别的安排,并不能得到普遍部署。该新规范填补了这一空白。”
“该ResourceSync规范引入了一系列于实现的功能,一个服务器可能支持启用远程系统与其不断发展的资源保持更紧密的一致,”Old Dominion大学计算机系副教授Michael L. Nelson解释道,“这也描述了一台服务器如何展示它支持的功能。远程系统可以检查这些信息,用以确定如何最好地与不断发展的数据保持一致。所有功能都通过Sitemap协议引入的文件格式基础上得以实现。功能可以被组合用以实现不同的功能级别,从而满足不同地方或社区的需要。”
“我们期待这个新标准将通过同步和更新过程的自动化为知证库管理者节省大量的时间、精力和资源,”NISO执行董事Todd Carpenter说。“最终的结果将是提升网络知识库中内容的普遍可用性和减少由于过时、不准确、以及今天在互联网上存在被替代的内容而产生的各种问题。”
信息源:http://www.niso.org/news/pr/view?item_key=6b81b2cd3a1891acd38682a006772dfa7ecec2ab
(潘薇编辑)

[原标题:NISO and OAI Publish American National Standard on ResourceSync Framework Specification : Provides methods for web servers to automate the synchronization of resources]

年终学术:上图学会2014年12月双月讲座

年末会议接二连三,今天上午是上海市图书馆学会2014年12月双月学术讲座。会议通知星期二下午才上网,而且用主持人Keven的说法,年会也才开过,不料人气还是很高,报名人数超过预期的50人,因此换了一个略大的会场——事实上还有没在网上报名直接就来的,所以会场坐得比较满。报告时间每人一小时,可以讲得比较从容。

秦健教授讲《数据与数据服务:图书馆服务的延伸》,认为数据服务已是美国图书馆的新常态。
– 数据服务到底可以做什么?印象中近年谈得较多的就是data curation,国内也有图书馆开始尝试,今年上图学会年会主旨报告之一殷沈琴讲的就是复旦经验《高校科学数据监护的探索与实践》。
本报告的数据服务范围更宽些,涉及服务的变化:从数据管理到数据服务、从呈现到分析、从馆藏(collection)到产品(production)。换言之,让数据“活”起来。作为实例之一,介绍Peter Leonard,耶鲁大学图书馆专职做数字人文研究的图书馆员,利用现有的工具(包括Google的Book Ngram Viewer等),为人文科学挖掘大数据集(原文链接见下)。
– 一直很困惑图书馆未来到底能做什么,如果仍停留在提供馆藏上,在去中介化的趋势下未来真的不乐观。近年逐渐升温的学科馆员、嵌入式服务等等,也是为了应对这种现状。然而,学科馆员定位似乎很尴尬,在能做什么和用户需要什么之间很难找准位置。耶鲁的例子确属于“数字人文”领域,但看起来也是图书馆员(学科馆员)能做的。
当然,要做延伸服务,最重要的是人员,还需要接受培训。就国内而言,不说图书馆领导是不是有这方面的眼光,提供培训者恐怕也难以寻觅。
– 报告谈到数据资源领域一些术语的变化,指出术语变化显示观念改变,比如从数字馆藏(digital collection)到数字数据(digital data)——雪城大学的“数字图书馆”课程已改名“数字数据基础”。如我这般原来看这些术语没有什么感觉的,现在有了另外的视角,或者也可以用Google Book Ngram分析一下这些词的变化趋势——这是有墙的。秦教授每年回国,切身感受“墙”对做研究的损害,报告中另一个例子是纽约时报关联数据,也是有墙的。

戴着Google眼镜的张甲馆长讲《大数据再定义图书馆服务导向》,从他乘坐没有方向盘的Google无人驾驶汽车的体验开始,直观说明大数据分析。
张馆长身为图书信息中心主任,报告例子中不少是高校信息办或者信息网络中心做的数据分析,很有启发。图书馆长有双重身份者还有不少(比如以前的重大、现在的厦大),为图书馆与网络中心合作提供不少方便。报告中也有图书馆的例子——解放军医学图书馆案例。
不过听完报告,对于图书馆有没有大数据,或者对现在能够获取到的数据到底能做什么,还是未能了了(抱歉,悟性不够)。

秦健教授的数据服务,张甲馆长的大数据,针对的都是新形势(或者新常态)下的图书馆服务,对大家比较有吸引力。我的《书目用RDF词表与本体概况》则比较小众,原是为上图设想把CNMARC数据发布为RDF而准备的。虽然针对的是对该主题已经有所了解的人,但自己对这个主题的知识积累不足,原来假定是小范围交流,有些问题是想共同探讨的,没想到变成了公开讲座,要面对那么多人,心里还是有点发毛。最终一个人自说自话讲得还算顺利,希望现场听众也有所收获。
PPT已经上网,请移步上图学会网站“资源”,注册登录后下载

参见:
耶鲁的例子见今年IFLA年会文章:Peter Leonard. Mining large datasets for the humanities. IFLA WLIC : (2014).
早年黑Google的博文:Google实验室新品Books Ngram Viewer:数据的可靠性(2010年12月18日)