数图研讨班 – 第 5 页

参加清华大学举办的2006数字图书馆前沿问题高级研讨班，行前看到图谋博客的“走近DL前沿问题高级研讨班访谈结果”，发现自已正是张甲不希望与会的“只带耳朵来听的人”。聊以自慰的是，我还带上了自己的脑袋。在四月份时就下载了2005年研讨班的PPT，花了不少时间学习、梳理过。也算是有备而去吧，所以虽是新手，本次会议的内容自以为绝大部分都能明白。自然尚属纸上谈兵，具体做才会知道是不是真明白。

数字图书馆是个很宽的领域，而本馆界定要我来做的只是其中的一部分，所以听的时候常常会觉得其他相关同事也该来洗洗脑子才好。至少对我这种水平的人，对于本次会议的体会是：

1、值得参加。平心而论，专家报告、同行交流，不是都精彩，参会也无法寻得直接的解决方案，但能了解现状与进展、交流idea。
数图实现方法是多种多样的，如曾蕾在最后总结中所说，“不要在一棵树上吊死，有很多树可以吊（死）”。与成熟（或许暮气沉沉）的编目相比，数字图书馆无序且缺乏规则――因为标准太多而不知该遵循何种标准，充满着不定性和变数。如此才更需要追踪进展，而今年已历三届的研讨班，用keven的话说是“保持数图‘主流意识’，与国际接轨的重要载体”。当然参会不是唯一的途径，但肯定是比较省力的途径。

2、参会前应该有知识储备。第一天下午会议，坐我边上的那位MM有不少时间花在短信聊天上。后来听某位参会同仁讲，很多内容都听不懂。这真是太可惜了。

自着手“数字化”以来，最关心的是两个问题：

1、数字资源长期保存。曾蕾的报告“数字保存”正针对这一问题，最后的结论或者说目前的现状，是网上那张著名的图片：

174 KM AHEAD

另：由于时间不够，会上演讲重点放在了数字保存的“必要性”部分，PPT中相当精彩的“数字保存方法及优缺点比较”都跳过去了。PPT中还有很多参考资料，强烈推荐！[目前尚未上网，请耐心等待]

2、扫描电子书的全文检索。本馆已扫描的图书，只做了目次全文，其它只是图像，没有做OCR，而这似乎是图书馆做图书扫描的普遍现象。CADLIS项目中的百万图书计划（高等学校中英文图书数字化国际合作计划，CADAL），七月初通过验收，扫描图书已超过了百万册，据说也没有全文。如此的信息揭示层次，如何与Google的图书计划做对比？
图书扫描是相对低成本的，但文字识别+校正，尤其是对古籍、民国时期图书，就目前技术水平，成本之高，大概是一般图书馆无法承担的了。

就参会得到的信息，目前两个问题都没有很好的解决方案，不知道是该郁闷还是心安理得――可以放心大胆地开始了。

标签：数图研讨班

数图研讨班之一：随感