乱花迷眼 – 第 71 页 – 编目精灵III

数字黑洞

瑞典斯德哥尔摩的国家档案馆(Riksarkivet, RA)保存部主任Jonas Palm最近在TAPE (Training for Audiovisual Preservation in Europe)上发表了题为《数字黑洞》的文章(The Digital Black Hole，15页PDF文件)，分析RA在数字化及长期保存方面的费用，主要是纸质文献。另有2004年瑞典文化部出版报告《保存声音与图像》中国家音像档案馆(Statens Ljud och Bild Arkiv, SLBA)中音像资料数字化保存方面的数据。
数字保存费用巨大在现在看来应该不是新见解，但用恒星的生命周期来比喻数字化项目的生命周期，用“黑洞”来比喻数字化项目大量吞噬金钱，或许有点新意？（题外话：他对恒星演化的理解似乎有点望“图”生义，想当然）

“没有长期规则，数字化项目就如同天空中的黑洞。经扫描的信息，在模拟世界可以用我们的眼睛简单访问，突然存贮在了一个只有通过使用技术才能检索的环境中，则构成了持续的费用因素。被转换的信息越多，访问费用增长越多。数字黑洞对项目有着稳定的控制力。它将继续吞噬金钱或信息：必须持续投入资金，否则原来的投入就会浪费掉。如果投入资金开始减少，信息可能仍可检索，但由于文件损坏或文件格式过时或技术原因，过一阵子将不再可访问。随后数字信息就永远消失在黑洞中了。”

关于数字保存的一些对比数据：缩微、纸质与数字化的费用比较

    “在RA，我们基于我们用于数字信息存贮的等级存贮管理系统(Hierarchical Storage Management System, HSM系统)计算费用。用我们的计算结果与Chapman[哈佛大学图书馆Weissman保存中心]的结果比较，相当一致，如图3所示。在两种情况中，比较存贮相同信息量的费用：平均每本书332页，（1）以其原始格式存贮于空调库中，（2）以缩微胶卷存贮于气候控制库中，（3）数字化为600 dpi黑白图像，（4）数字化成300 dpi灰阶(8位)图像。……存贮费用包括需要管理与保存数据的系统，含校验数字一致性、备份过程、校验存贮信息、自动传输到新磁带等。”
    “数字存贮费用比一般认为的要高得多，因为包含比大多数人了解的更多的东西。在讨论这些问题中，业界提出，随着存贮增加，经济负担增长更快。”
    “存贮介质的能力每年加倍的事实，导致存贮价格快速下降的误解。短期而言――典型地少于五年――是对的，因为保存文件可访问不需要做多少事，但长期而言，管理费用将持续上升。”
    “如果作比较，单个2TB硬盘驱动器的费用为450欧元，而一个典型的2TB备份硬件系统可能要10倍的费用，达4500欧元或更多。对于HSM系统，主要费用不是存贮介质，而是围绕的硬软件。”

文章最后提出了一个很不错的省钱的文本保存设想，即以COM（计算机输出缩微胶卷）代替数字化保存：

“RA目前正研究为确保处于不佳状态[纸质]资料上的信息有一个长期的记录，使用COM改善缩微拍摄策略的可行性。RA正考虑将图像文件连同可检索的元数据转换为COM，代替简单的缩微拍摄（如果反之首先生产作为图像文件来源的缩微胶卷，缩微胶卷就会缺少这些检索用数据）。数字图像可以直接使用，但有了COM，就没有必要保存它们，否则就有必要了。未来胶卷可以很快地（再）扫描，以数字方式获取，同时又是可检索的。”

对于古籍之类需要作保护性保存的资料，听说有照相拍摄存档的，国内有没有采用COM的呢？

如果说由于播放设备限制，音像资料无从选择，为长期保存只有转换为数字格式，那很多纸质或文本资料并无此限，面对最终似乎难免进入“黑洞”的数字化项目，为什么还要前仆后继？
绝大部分数字化项目应该以方便利用为目的（包括以保护为目的的保存项目）。如果把费财费力费时的数字化项目当宝贝似地藏着限制使用，或许还没跟多少人打过照面，就走到了生命周期的终点。

启蒙资料：如何建设一个数字图书馆

对建立数字图书馆一点感觉也没有，觉得应该入入门。正好这几天在Web4Lib讨论组中看到几个有用的信息：

2006-3-23
Eric Lease Morgan宣布一部名为“用MyLibrary设计、实施与维护数字图书馆服务与馆藏”(Designing, Implementing, and Maintaining Digital Library Services and Collections with MyLibrary) 的数字图书馆手册完成上线。手册以MyLibrary为例，但其原则与方法可用于任何数字图书馆系统与应用。有HTML版与PDF版（200+页）。

2006-3-28
位于巴基斯坦拉合尔的管理与技术大学图书馆的Irfan Mirza要为学校开发一个数字图书馆，求助“如何建设一个数字图书馆”。
[一位和我一样的“数图盲”，却要做数字图书馆]

2006-3-29
Stephen DeGabrielle首先推荐Ian H. Witten and David Bainbridge所写的“How to Build a Digital Library”（ISBN 1-55860-790-0，2002年，700页）
[有点陈旧了，又这么长，还没有联机下载，放弃……统计表明，不上网的内容被引率低，那是当然的了]

接着Grace Agnew推荐NISO的“建设好的数字馆藏的指导框架”(Framework of Guidance for Building Good Digital Collections)，以及将于4月底完成的“新泽西数字高速公路”的指导性文件“数字高速公路藏品路标”(The Digital Highway Collections Roadmap: Everything you need to know to build good digital collections)
[这个听起来不错。前者有权威性，“指导框架”有全局感；后者显示最新进展]

随后MuseGlobal公司的Peter Noerr推荐“数字图书馆工具箱”第3版(The Digital Library Toolkit)。该文是受Sun公司委托的图书馆白皮书之一，完成于2003年，“未来”部分自然早已过时，但基本原理仍然可靠。
[可以留作参考]

国内相关信息源：

中国数字图书馆标准与规范建设(2002.10-2004.9) http://cdls.nstl.gov.cn/cdls2/w3c/
中国数字图书馆标准规范-数字对象唯一标识符
http://www.doi.cn

上海图书馆“数字图书馆研究”资源门户http://www.libnet.sh.cn/sztsg/
北京大学数字图书馆研究所http://www.idl.pku.edu.cn/index.html
清华数字图书馆园地http://www.lib.tsinghua.edu.cn/digitallib/digital.html

2006-4-15 update：

上海交通大学图书馆数字图书馆论坛http://www.lib.sjtu.edu.cn/chinese/digital_library/sztsglt.htm

《数字图书馆论坛》http://www.dlf.net.cn/

2006-8-12 update：

数字图书馆前沿问题高级研讨班 http://www.dl-china.org/

2004 深圳 http://lib.utsz.edu.cn/adl2004/
2005 厦门 http://www.dl-china.org/2005/
2006 北京 http://elib.lib.tsinghua.edu.cn:8080/meeting/index.jsp

OCLC发布新的数据挖掘项目――读者对象

图林Library 2.0很热闹，最近刚被选为下届北美专业图书馆协会(SLA)主席的SirsiDynix公司副总裁Stephen Abram对此也一直是谈兴甚浓，但OCLC只谈Web 2.0，绝口不提L2。
Web 2.0有很多特征，其中之一是“数据是下一个Intel Inside”，不知道是不是确切，我把它译为“数据核心”――对图书馆来说，内容是基础，围绕着自己特有的内容来提供丰富的用户体验，才是Web 2.0时代的生存之道。而OCLC积数十年而成的联合目录数据库WorldCat，5千万书目、10亿馆藏，就是这样一个独特的“数据核心”。OCLC副总裁、首席策略家Lorcan Dempsey一直在呼吁“让数据起作用”，数据挖掘是研究部的重头戏。

3月24日，OCLC正式公布了研究数年的数据挖掘研究成果之Audience Level，通过对WorldCat中馆藏数据的挖掘，结合其FRBR研究的xISBN项目，提供作品（而非某一出版物）的读者对象。
在书目记录中，虽然为“读者对象”代码预留有位置，但西文编目的传统是除了儿童读物，一般不作标记。为获取读者对象信息，OCLC转而利用其独特而庞大的馆藏数据，通过对不同类型的收藏馆加以不同的权重，以数字方式提示文献可能的读者对象。

这个项目有什么意义呢？按OCLC的说法，可用于以下三个方面的进一步开发：
1、information relevancefor retrieval（信息检索相关性）
2、reference services (including readers advisory)（参考服务，含读者咨询）
3、collection development（馆藏发展）

提供三种利用途径：

1、用户界面
输入WorldCat号或ISBN，在页面的最下面，会以图示法显示该作品的读者对象（从中小学级Schooler到学术级Scholar）

2、Web服务
大家可以在自己的网页中加上如下链接，显示作品的读者对象信息（我以《哈利?波特与魔法石》为例，可以用WorldCat号或其它ISBN代替这里的0590353403）：
http://researchprojects.oclc.org/al/al.xml?oclcno=0590353403

如在后面加参数“&manifest=true”，则显示所有版本的读者对象信息，如：
http://researchprojects.oclc.org/al/al.xml?oclcno=0590353403&manifest=true

[update (2006-3-25 17:00)]
以上只是简单的示例。实际上Web服务提供了最广泛的应用可能性，只要有足够的想象力，任何人都可以将这一服务结合进自己的应用。最原始的方法如在自己的OPAC中显示某书的读者对象，高级一点的如评估本馆西文馆藏的学术层次……

3、Greasemonkey用户脚本
在Firefox浏览器中安装Greasemonkey扩展后，再分别增加用于Open WorldCat或者亚马逊的用户脚本，在访问这两个网站时，脚本会自动在它检测到ISBN的网页中插入读者对象评价信息。

看OCLC研究部主页的那一长排研究项目，就不会奇怪为什么它会成为本行业的龙头老大了。

Audience Level prototype资料：
新闻发布：New OCLC Research prototype assesses likely audience for resources in WorldCat, the world&aposs largest catalog of library resources

使用说明：Learn more about the Audience Level prototype

算法介绍：Audience Level project overview

经典回放：
Lynn Silipigni Connaway, Edward T. O&aposNeill and Chandra Prabha. 2004. “Estimating Audience Level of Monographs Using Holding Patterns in WorldCat”. Presentation given at Library Research Seminar III: Learning and Growing; Inquiry into Librarianship, 14?C16 October 2004, Kansas City, Missouri (USA). (PowerPoint : 32MB/29slides)

其它相关资料：
Lorcan Dempsey: Making data work harder
Lorcan Dempsey: Making data work – Web 2.0 and catalogs

Greasemonkey中文手册