IFLA《善本和手稿馆藏数字化规划指南》

微博上看到Cle_d介绍国际图联(IFLA)网站发布《善本和手稿馆藏数字化规划指南》。和本职相关度高,自然得下载,作为工作的一部分,认真细看。

Guidelines for Planning the Digitization of Rare Book and Manuscript Collections
Written by the IFLA Rare Book and Special Collections Section, September 2014. Revised in January 2015.

本指南完成于2014年9月。由于作为责任者的IFLA“善本与手稿部”改名“善本与特藏部”,2015年1月对责任者名称做修改后重新发布。不知道为什么不索性把指南名称也一同改了:《善本和特藏数字化规划指南》不也更合适么?至少在看过指南后,我认为修改名称会更合适。
本指南对规划特藏数字化计划提供指导框架,包括一些原则性的建议。文件中基本上没有提供相关标准等资料,不属于实践性的手册。

作为一个实践者,通读后发现自己在数字化项目规划过程中做对了一些事,但还是有不少失误。部分原因可以说是偷懒跟着别人走,没有意识到对特藏需要有特别的关注点;有时又觉得技术平台对我们而言是拿来的东西,自己无能为力,而实际上自己根本没有考虑过用户的需求。总结起来存在的主要问题是:
1、只考虑资料的智力内容,没有考虑原件外观可能对用户同样重要(如果说更重要的话,那用户根本不会考虑用扫描件了)。
2、只考虑资料的管理与保护,没有意识到数字化应该是为用户而做的。这不是指我们没考虑过用户,事实上我们还由用户提出需求来做数字化,但这也只是从图书馆角度的做法,并没有从用户角度考虑。
以上两个方面的结合点,就是在“忠于原件”部分,可以说完全无意识,因而做得相当差。
指南从项目计划开始,就把用户当作项目的一部分,了解用户的需求、向用户提供数字化信息;评估也不仅仅是数量,更考虑质量,考虑用户的使用体验。等等。指南作者均来自欧美,差距自现。

———- 学习笔记(摘译原文大纲 +【感想】) ———-
导论和范围
-导论
图书馆有责任提供对其数字馆藏的全球访问:公众需要它、学者期盼它。【“提供对研究资源免费和世界性的获取”的要求贯穿整个指南。对此,除版权方面,无论出于对外部环境还是内部政策的考虑,均无话可说。可以说,我们的数字化项目,从前提上就基本没有遵循这个指南。】
-范围
不同于专注技术问题、数字采集的特定方法或数字保存,本指南关注于概念规划和与潜在用户的协作,以达到所需结果及可持续的成果。【确实让我意识到了这两个问题,尤其是用户问题】

1 设计项目
开始项目选择时需要先回答的几个基本问题:
-项目的愿景?目标与目的?谁用?如何用?
-谁应当参与规划?【学者、用户、管理者、图书馆员工和技术人员】
-有没有外部资助机会?
-期望的复杂程度?能够达到的复杂程度?
-想数字化什么,为什么?
-资料有没有版权问题?
-数字化应当在馆内还是外部服务提供者实现?有没有空间、费用、设备和专业?外部厂商可提供什么?
-项目的最终格式是什么?有没有手段达到?
-有没有设想社会网站成分,例如众包转录文字或元数据强化?
-如何把质量管理结合进项目的所有阶段?

2 选择原件
-是否想数字化单一的、混杂的,比如“宝物”?
-是否想数字化现有馆藏?
-是否想创建新的“虚拟”馆藏?比如来自不同机构、具有共性的馆藏?
版权
权利拥有和“使用条款”在项目开发中也很重要,应当通过与协作方及其他第三方协议,必须在事先讨论同意,并且在项目开始前写下。此外,数字化对象本身可视为新版本。其结果是,每个数字化对象及馆藏的可获得性及使用条款应该向用户明示。【或许普遍存在的问题是:一方面对资源被盗版心存疑虑,另一方面并没有在页面提供足够的版权声明】

3 创建馆藏工作流程
第1步:检查和准备数字化资料:物理条件和现有元数据
第2步:数字化过程
-选择设备
-图像质量
在计划采集分辨率时,确保计算需要多少存储空间,考虑研究者体验的下载时间。希望只数字化馆藏一次,用于当前和未来需求时,应当考虑按当前期望最终格式1.5倍以上采集。【“1.5倍”说以前从未听说过】
-忠于原件
数字化善本和独特资料时,重要的是尽可能按原件的外观与感觉保存与还原。【对我来说,从未有过保存还原“外观与感觉”(look and feel)的意识。虽然在不少日本数字化项目中看到过图像边上的标尺/色标,但一直没有引起足够重视,从未想过我们也应该照此办理】
应当采集完整物理对象,而不仅仅是智力内容。必须拍摄整页前后(包括页边),不要在页边内修剪图像。装订册应当从头到尾拍摄,包含空白页及装帧。
为向研究者传递原件尺寸,图像中应该包含线性比例尺。一个装订单位中,不应该通过图像处理或转动对象改变页的方向。
在尝试还原原件外观与感觉时,颜色是最重要而复杂的问题之一。一个对象至少应该选择一个页或图像包含色标以方便颜色校准。每个设备应当以相同色值标准(如CIR-Lab系统)校准,并定期重校。显示硬件也应当校准。【我们似乎从来没有做过颜色校准】
-与保护有关的问题
步骤3:采集后图像处理和系统摄入
除了颜色修正,不应该做图像处理。关于是否或者何时允许颜色修正,机构应当有一个政策。政策还应当说明,有关采集后图像颜色操作的信息如何与用户沟通。【我们扫描后最常做的就是“图像处理”,比如去掉页面中的黑点、让页面美观之类,在我看来既费时又无意义,但似乎扫描图像的标准如此?】
每个数字化对象应当有一个永久标识符。【考虑过,一直没有实施】

4 元数据
适用于数字馆藏的4类元数据:
-书目(或描述)元数据
数字化后,应该在目录记录中加上指向数字版的链接,并在数字版中加上返回目录记录的链接。【只做了一半,目录中加了链接,但数字版元数据中没有返回链接】
-结构元数据
研究复杂对象如中世纪手稿、档案 、通信或相集,研究者必须能够从个别数字页面图像还原(或重组)物理项。图书馆……应当提供出色的校对和其他形式的结构化元数据。至少研究者要能确定页面或图像的原始顺序。……除了识别左页和右页,还应该给出总页数。其他重要元素包括编页方案、文本区分、重要引文和插图。【在某个特藏的元数据中竟然忽略了“插图”,实在不应该!】
-图像(或技术)元数据
通常由照相机或扫描仪自动采集,出现在文件头
-管理元数据

5 显示
用户正寻找免费开放获取、易于通过普通搜索引擎发现、用标准浏览器和插件时没有交互和显示问题、具有查看选项(包括双页显示和缩放能力)、标签功能(尤其为后续检索)、个性化注释能力、打印能力,以及下载、重用及组合能力。呈现格式应当易于浏览、可下载、易操作。【检索使用界面的功能需求】
向用户清晰显示版权限制或其他“使用条款”。【前已提及,这点经常被忽视】

6 宣传、推广和重用
主目录中包含数字项的书目描述及数字化文档的书目记录,并链接到文档。这些描述同样存储在数字化图书馆系统中,并链接回主目录。【前述只做了一半】

7 评估
与制作和使用相关的统计可以提供数量评估的良好起点,如:数字化图书、对象的数量,门户网页的访问数,数字对象被看、下载的次数,被引用或链接的次数等。
但是更重要且困难的是质量分析,需要来自用户的反馈:
-代理【扫描件】忠实原件的程度如何?图片是否原件的有效替代,或研究者需要至少看原件一次以完成其目的?【由于只考虑智力内容,从未考虑过扫描件是否足以代替原件的问题】
-产品可读性与可用性?
-技术多大程度上实现研究目的?
-资源被如何使用,被谁使用?
-资源被如何重用或改作他用?
-对物理馆藏使用的影响是什么?
有关数字化项目的统计,应当纳入所有图书馆活动和使用的常规报告。

8 数字馆藏的长期保存
图书馆至少应该维护其高分辨率数字馆藏于日常备份网络服务器,有流程和系统可以随时间流逝监控数字文件的完整性。在地理位置分散的多处存储多份拷贝也是可接受的保存策略。应当有流程用于日常评估升级馆藏或模拟软件功能的需求。【如何“监控数字文件的完整性”?这个问题亟待改进与加强】

9 建议摘要
-仔细规划项目,考虑目标与目的、版权限制、资助及机构的能力。由图书馆员、技术人员、保管员、研究者和管理者共同参与。
-预期学者和数字研究方法的需求,可能包含大数据、资源聚合、详细图像分析、数据可视化、地理空间映射、社会媒介等。
-借助数字化项目,提供对以往隐藏馆藏的访问,努力将它们虚拟地与其他机构的相关资料联合。
-总是数字化完整的智力实体而不是其部分。保留完整原件的外观与感觉,强化其作为历史产物的研究。数字化副本要保留原件的结构与上下文(环境),维护返回到目录记录的链接。
-永远不要在数字化后剔除原馆藏。与数字代理交互,永远不可能得到与物理馆藏交互可能得到的全部知识。
-提供高分辨率彩色图像,包含关于图像的技术信息、版权信息、比例和彩色图、缩放能力,可能时全文检索、文本全部或部分转写、地理空间座标。对数字资源使用永久标识符。
-提供尽可能多的描述性、结构化、技术性和管理性元数据。在永久库中提供链接返回到物理对象描述。
-对数字馆藏的创建存档,如同对新物理馆藏,让研究者可用这些信息
-提供对研究资源的全球免费访问,以易于集合、使用及导入数字研究与出版平台的方式,向用户提供下载数字对象、馆藏和元数据。
-通过外部门户和聚合服务曝露数字馆藏
-评估和记录项目成果
-确保数字馆藏的长期保存

《IFLA《善本和手稿馆藏数字化规划指南》》上有4条评论

  1. 书格 [https://shuge.org/] 的扫描很专业 。

    图书制成 PDF 格式, 并且 pdf 开头也有色卡。 符合 “忠于原件” 的原则。

    感觉如果不采用 PDF 格式的话,最难的部分是一个优质的阅读器【目前见到的没几个好的,理想的是也要达到 MangaMeeya (最好的漫画阅读器)的水平】。

    OCR 感觉没必要,难度过大。

    营销推广的话 感觉做的最好的是 http://www.britishnewspaperarchive.co.uk/

    可以提供包年的收费方式

    1. 关于书格,那是因为书籍来源都是国外吧:) (https://shuge.org/faq/)。
      OCR其实不是没必要,而是没有简单的解决方案,对于中文繁体字尤其如此。看看Google Ngram Viewer就知道了,对数字人文研究有很大价值。

      1. [不懂为什么回复没有邮件]

        Google Ngram Viewer 确实很不错。 但是 ocr 意味着还需要校对资源。 我只是说难度很大。

        书格扫描的都是中国的古籍吧? 书格已经不错了,但是还是无法做到不下载让普通用户在线阅读手稿 ~

        国外很早就有晒手稿的网站了 比如这个 ~

        http://www.rossashby.info/journal/page/6208.html

        记录了这个科学家的全部手稿扫描版,我觉得普及这种东西的意义还是很大的,对于现代人的科研也是一种启发。

        1. 书格的书都是从国外网站下载的,并非自己扫描(见先前回复链接)。
          其实提供在线阅读才是更常见的方式。
          只能相信国内也会越来越多吧。

评论已关闭。