数图研讨班之一:随感

    参加清华大学举办的2006数字图书馆前沿问题高级研讨班,行前看到图谋博客的“走近DL前沿问题高级研讨班访谈结果”,发现自已正是张甲不希望与会的“只带耳朵来听的人”。聊以自慰的是,我还带上了自己的脑袋。在四月份时就下载了2005年研讨班的PPT,花了不少时间学习、梳理过。也算是有备而去吧,所以虽是新手,本次会议的内容自以为绝大部分都能明白。自然尚属纸上谈兵,具体做才会知道是不是真明白。

    数字图书馆是个很宽的领域,而本馆界定要我来做的只是其中的一部分,所以听的时候常常会觉得其他相关同事也该来洗洗脑子才好。至少对我这种水平的人,对于本次会议的体会是:

1、值得参加。平心而论,专家报告、同行交流,不是都精彩,参会也无法寻得直接的解决方案,但能了解现状与进展、交流idea。
    数图实现方法是多种多样的,如曾蕾在最后总结中所说,“不要在一棵树上吊死,有很多树可以吊(死)”。与成熟(或许暮气沉沉)的编目相比,数字图书馆无序且缺乏规则――因为标准太多而不知该遵循何种标准,充满着不定性和变数。如此才更需要追踪进展,而今年已历三届的研讨班,用keven的话说是“保持数图‘主流意识’,与国际接轨的重要载体”。当然参会不是唯一的途径,但肯定是比较省力的途径。

2、参会前应该有知识储备。第一天下午会议,坐我边上的那位MM有不少时间花在短信聊天上。后来听某位参会同仁讲,很多内容都听不懂。这真是太可惜了。

    自着手“数字化”以来,最关心的是两个问题:

1、数字资源长期保存。曾蕾的报告“数字保存”正针对这一问题,最后的结论或者说目前的现状,是网上那张著名的图片:

174 KM AHEAD

另:由于时间不够,会上演讲重点放在了数字保存的“必要性”部分,PPT中相当精彩的“数字保存方法及优缺点比较”都跳过去了。PPT中还有很多参考资料,强烈推荐![目前尚未上网,请耐心等待]

2、扫描电子书的全文检索。本馆已扫描的图书,只做了目次全文,其它只是图像,没有做OCR,而这似乎是图书馆做图书扫描的普遍现象。CADLIS项目中的百万图书计划(高等学校中英文图书数字化国际合作计划,CADAL),七月初通过验收,扫描图书已超过了百万册,据说也没有全文。如此的信息揭示层次,如何与Google的图书计划做对比?
    图书扫描是相对低成本的,但文字识别+校正,尤其是对古籍、民国时期图书,就目前技术水平,成本之高,大概是一般图书馆无法承担的了。

    就参会得到的信息,目前两个问题都没有很好的解决方案,不知道是该郁闷还是心安理得――可以放心大胆地开始了。