数图研讨班之一:随感

    参加清华大学举办的2006数字图书馆前沿问题高级研讨班,行前看到图谋博客的“走近DL前沿问题高级研讨班访谈结果”,发现自已正是张甲不希望与会的“只带耳朵来听的人”。聊以自慰的是,我还带上了自己的脑袋。在四月份时就下载了2005年研讨班的PPT,花了不少时间学习、梳理过。也算是有备而去吧,所以虽是新手,本次会议的内容自以为绝大部分都能明白。自然尚属纸上谈兵,具体做才会知道是不是真明白。

    数字图书馆是个很宽的领域,而本馆界定要我来做的只是其中的一部分,所以听的时候常常会觉得其他相关同事也该来洗洗脑子才好。至少对我这种水平的人,对于本次会议的体会是:

1、值得参加。平心而论,专家报告、同行交流,不是都精彩,参会也无法寻得直接的解决方案,但能了解现状与进展、交流idea。
    数图实现方法是多种多样的,如曾蕾在最后总结中所说,“不要在一棵树上吊死,有很多树可以吊(死)”。与成熟(或许暮气沉沉)的编目相比,数字图书馆无序且缺乏规则――因为标准太多而不知该遵循何种标准,充满着不定性和变数。如此才更需要追踪进展,而今年已历三届的研讨班,用keven的话说是“保持数图‘主流意识’,与国际接轨的重要载体”。当然参会不是唯一的途径,但肯定是比较省力的途径。

2、参会前应该有知识储备。第一天下午会议,坐我边上的那位MM有不少时间花在短信聊天上。后来听某位参会同仁讲,很多内容都听不懂。这真是太可惜了。

    自着手“数字化”以来,最关心的是两个问题:

1、数字资源长期保存。曾蕾的报告“数字保存”正针对这一问题,最后的结论或者说目前的现状,是网上那张著名的图片:

174 KM AHEAD

另:由于时间不够,会上演讲重点放在了数字保存的“必要性”部分,PPT中相当精彩的“数字保存方法及优缺点比较”都跳过去了。PPT中还有很多参考资料,强烈推荐![目前尚未上网,请耐心等待]

2、扫描电子书的全文检索。本馆已扫描的图书,只做了目次全文,其它只是图像,没有做OCR,而这似乎是图书馆做图书扫描的普遍现象。CADLIS项目中的百万图书计划(高等学校中英文图书数字化国际合作计划,CADAL),七月初通过验收,扫描图书已超过了百万册,据说也没有全文。如此的信息揭示层次,如何与Google的图书计划做对比?
    图书扫描是相对低成本的,但文字识别+校正,尤其是对古籍、民国时期图书,就目前技术水平,成本之高,大概是一般图书馆无法承担的了。

    就参会得到的信息,目前两个问题都没有很好的解决方案,不知道是该郁闷还是心安理得――可以放心大胆地开始了。

 

创建数字图书馆前要问的52个问题

    建立一个数字图书馆,不应该是一项任务,更不应该是一种宿命,而应该是一种选择――基于多方思考后的理性选择。《数字图书馆工具箱》为思考提供了一个框架。
    《数字图书馆工具箱》第三版 (The Digital Library Toolkit / by Dr. Peter Noerr. 3rd ed. Sun Microsystems, 2003. (PDF: 555K ; 151 p.) 是受Sun公司委托的图书馆白皮书之一,完成于2003年。作者Peter Noerr自言其中“未来”部分早已过时,但基本原理仍然可靠。
    在起始部分,约占全文1/5篇幅,分类提出了“创建数字图书馆前要问的52个问题”(Questions to Ask Before Creating a Digital Library) 及可能的答案。

  • 什么是… What Is …
    • … 数字图书馆?a Digital Library?
    • … 数字资料?Digital Material?
    • … 技术尖端?the Bleeding Edge of Technology?
    • … 自动标引?Automatic Indexing?
  • 政策 Policy
    • 需要数字图书馆吗?Is There a Need for a Digital Library?
    • 是当前图书馆的扩展吗?Is the Current Library Expanding?
    • 图书馆对特定项目重要吗?Is the Library Central to the Specific Project?
    • 图书馆信息的价值?How Valuable is the Library&aposs Information?
    • 信息在改变吗?Is the Information Changing?
    • 图书馆或组织需要自己的数字图书馆吗?Do the Library or Organization Want an In-House Digital Library?
    • 数字图书馆应当与传统图书馆共存吗?Should a Digital Library Coexist with a Conventional One?
    • 目标是运行一个图书馆还是管理资料?Is the Object to Run a Library or Manage Material?
  • 用户 Audience
    • 用户对新的服务/资料有需求吗?Is There a Demand for New Services and/or Material?
    • 市场大小已测定?Has the Market Been Sized?
    • 用户构成?How is it Composed?
    • 如何使用数字图书馆?How Will a Digital Library Be Used?
    • 如何访问数字图书馆?How Will a Digital Library Be Accessed?
    • 有竞争吗?Is There Competition?
  • 理由 Reasons
    • 扩展服务?To Expand Services?
    • 使图书馆对组织更重要?To Make the Library More Central to the Organization?
    • 产生收入?To Generate Income?
    • 推广馆藏?To Promote Collections?
    • 提升图书馆形象?To Raise the Library&aposs Profile?
    • 迫于工作人员压力?Because of Staff Pressure?
  • 其它选择 Alternatives
    • 什么也不做?Do Nothing?
    • 外包?Out-Source?
    • 提供一个网关?Provide a Gateway?
  • 费用 Costs
    • 启动费用?What are Start-Up Costs?
    • 持续费用?What are Ongoing Costs?
    • 如何减少费用?How to Reduce Costs?
    • 收入 Income
  • 资料来源 Sources of Material
    • 内部资料?Internal Sources?
    • 档案及其它?Archives, Etc.?
    • 外部原始资料?External Original Sources?
  • 传送 Delivery
    • 本地资料并传送?Local Material and Delivery?
    • 代理传送?Proxy Delivery?
    • 传送到何处?Where is it Delivered?
    • 传送的持久性?How Permanent is the Delivery?
    • 需要什么能力?What Capabilities are Required?
    • 传送安全 Deliver Security
  • 版权/知识产权 Copyright/IPR
    • 谁拥有资料?Who Owns the Material?
    • 复用与分发 Re-Use and Dissemination
    • 收费?Charging?
    • 部分传送?Partial Delivery?
    • 作为代理?Act as an Agent?
    • 公平使用 Fair Use
    • 安全 Security
    • 水印及其它保护 Watermarks and Other Protections
  • 技术 Technology
    • 标准?Standards?
    • 专属解决方案 Proprietary Solutions
    • 可升级性 Scalability
    • 未来可能性 Future Possibilities
  • 保存/处理 Preservation/Handling
    • 资料不可替代?Is Material Irreplaceable?
    • 资料有多种用途?Is the Material Multi-Use?

    怎么最后一数,有54个问题?

BTW:今晚出发去北京参加2006数字图书馆前沿问题(发展战略与实践)高级研讨班。看图谋的访谈结果,心虚得很,纸上谈兵为自己壮行。

 

用Wiki Matrix选择维基软件

    前述Meredith Farkas于7月13日在SirsiDynix学院作的题为“维基:联机协作的终极工具”(Wiki: The Ultimate Tool for Online Collaboration)(PDF格式的PPT)的报告,最后部分涉及选择维基软件需要考虑的因素:

  • Programming language 编程语言
  • Ease of installation 易于安装
  • Security 安全
    • Permissioning 许可
    • Spam prevention 垃圾防范
  • Ease of use 易于使用
  • Cost 费用
  • Syntax 句法
  • Version control 版本控制
  • Ability to hold discussions 掌控讨论能力
  • RSS
  • Ability to change look 改变外观能力

    Meredith之后介绍了一个维基软件比较网站“维基矩阵”(Wiki Matrix) 。

    看“维基矩阵”,列有差不多60个软件!各软件详细信息包括近百项功能及句法实例,可以选择若干个软件作相互之间的功能比较。选择维基竟然有这么多需要考虑的因素,真是越看越晕。
    实在无从选择,网站有一个维基选择精灵(Wiki Choice Wizard)提供帮助。有几个步骤提供选项,也就是该网站认为选择软件时需要首先考虑的因素吧。每个步骤都会介绍不同功能的优劣,也可以随意,不会让人无从选择:

  • 步骤1:页面历史 [最喜欢这个功能,可以保留更动信息]
  • 步骤2:所见即所得 [易用性好,有助于众人参与]
  • 步骤3:软件还是主机 [自己安装软件比较有保障]
  • 步骤4:存储系统:数据库、文件、RCS [数据量大概不至于太大,似乎选择文件方式比较简单]
  • 步骤5:开源/商业软件 [开源软件]
  • 步骤6:编程语言 [随便选了ASP、C++、Java、JavaScript、Perl、PHP]

    最终结果有8个符合上述要求,可以立即比较符合要求的维基软件(Java两个、Perl和PHP各三个)。有了上面选择的基础,再反过来看那些功能(包含在系统需求、数据存储、安全/反垃圾、开发/支持、通用功能、特殊功能、链接、句法功能、可用性、统计、输出、多媒体等大类中),似乎轻松了些,可以进一步筛选。

参见:
建立维基前需要考虑的问题
维基的应用