数图研讨班之二:布道者

    本次数字图书馆前沿问题高级研讨班安排紧凑,基本是上下午各四场报告,晚上还有安排。差不多每个报告人,对着精心准备的PPT,讲到中间(可能是拿到张甲的“催命符”以后)必说的一句话是:“时间比较紧,…就跳过去不讲了。”而被跳过的部分,往往是“重要性”分析之后,很有意思的实例部分。报告人讲课时的PPT,基本上都更新过,比发下来的资料汇编中内容更好,所以虽然我参加了会议,也还在等待PPT上网,下载后另花时间继续学习。不过会前先发资料仍是个好方法,听讲效率高――这或许是有了preprint,还要有postprint的理由吧。

    keven的报告“数字图书馆2.0”可称概念轰炸――而且是狂轰滥炸。即使是最后讲上图的“上海年华”实例仍是如此,似乎恨不得辟开听众的脑袋,把东西都灌进去。我想keven或许应该去做老师,每天讲课,消解他的满腹经纶,而后修炼出曾蕾那样从容优雅的讲课风格。
    会议结束前总结,张甲、林夏、刘伟玲依次发表感言(王雪茅先离会参加其他会议),最后上台的曾蕾讲得动情,竟有点刹不住车。台下的我猛悟,原来keven和他/她们一样,都是数图布道者……
    布道者中或许还应该加上国家图书馆的总工程师孙卫。他是会议的第一个主讲人(国家图书馆二期工程暨国家数字图书馆工程介绍),似乎自始至终与会(迟至晚上九点多),并且提问、分析,给与会者很多启发。以至于最后分组讨论,每位海外专家带一组,有同仁提出要孙卫也带一个组。

    另外,keven在报告时又鼓动他人写博。与会者应该是图林中对网络比较熟悉的一群,然而我的感觉如a在“DL研讨班归来”中所说,参会者中了解图林博客的人不多。不知到目前为止被keven鼓动起来写博者已有几何?

 

数图研讨班之一:随感

    参加清华大学举办的2006数字图书馆前沿问题高级研讨班,行前看到图谋博客的“走近DL前沿问题高级研讨班访谈结果”,发现自已正是张甲不希望与会的“只带耳朵来听的人”。聊以自慰的是,我还带上了自己的脑袋。在四月份时就下载了2005年研讨班的PPT,花了不少时间学习、梳理过。也算是有备而去吧,所以虽是新手,本次会议的内容自以为绝大部分都能明白。自然尚属纸上谈兵,具体做才会知道是不是真明白。

    数字图书馆是个很宽的领域,而本馆界定要我来做的只是其中的一部分,所以听的时候常常会觉得其他相关同事也该来洗洗脑子才好。至少对我这种水平的人,对于本次会议的体会是:

1、值得参加。平心而论,专家报告、同行交流,不是都精彩,参会也无法寻得直接的解决方案,但能了解现状与进展、交流idea。
    数图实现方法是多种多样的,如曾蕾在最后总结中所说,“不要在一棵树上吊死,有很多树可以吊(死)”。与成熟(或许暮气沉沉)的编目相比,数字图书馆无序且缺乏规则――因为标准太多而不知该遵循何种标准,充满着不定性和变数。如此才更需要追踪进展,而今年已历三届的研讨班,用keven的话说是“保持数图‘主流意识’,与国际接轨的重要载体”。当然参会不是唯一的途径,但肯定是比较省力的途径。

2、参会前应该有知识储备。第一天下午会议,坐我边上的那位MM有不少时间花在短信聊天上。后来听某位参会同仁讲,很多内容都听不懂。这真是太可惜了。

    自着手“数字化”以来,最关心的是两个问题:

1、数字资源长期保存。曾蕾的报告“数字保存”正针对这一问题,最后的结论或者说目前的现状,是网上那张著名的图片:

174 KM AHEAD

另:由于时间不够,会上演讲重点放在了数字保存的“必要性”部分,PPT中相当精彩的“数字保存方法及优缺点比较”都跳过去了。PPT中还有很多参考资料,强烈推荐![目前尚未上网,请耐心等待]

2、扫描电子书的全文检索。本馆已扫描的图书,只做了目次全文,其它只是图像,没有做OCR,而这似乎是图书馆做图书扫描的普遍现象。CADLIS项目中的百万图书计划(高等学校中英文图书数字化国际合作计划,CADAL),七月初通过验收,扫描图书已超过了百万册,据说也没有全文。如此的信息揭示层次,如何与Google的图书计划做对比?
    图书扫描是相对低成本的,但文字识别+校正,尤其是对古籍、民国时期图书,就目前技术水平,成本之高,大概是一般图书馆无法承担的了。

    就参会得到的信息,目前两个问题都没有很好的解决方案,不知道是该郁闷还是心安理得――可以放心大胆地开始了。

 

CALIS联合目录与国家图书馆的不一致问题――LCSH更新的启示

    前几天,在杭州参加CALIS联合目录用户委员会第三次会议,质量控制组成员有一个议题是讨论“中文团体名称规范”。因为CALIS联合目录规范库前期建设已进入最后阶段,完成中文团体部分,就可以正式投入使用了。
    由于CALIS联合目录制定的著录规则与国家图书馆在诸多方面不一致,导致大陆及港台多方质疑。为能与国图保持一致,CALIS积极参与第二版《中国文献编目规则》的编制。不过,据说有些原来争论确定的内容,最终出版已非原来面目,让参与编写的CALIS一方很是郁闷。
    更令人郁闷的是,国图的做法也不完全依据《规则》。在这种情况下,《规则》是否还具有其权威?为名称规范,CALIS已经投入很大人力,期间团体名称形式还做过多次更改。在目前状况下,是否要完全按《规则》做,就存在了很大的疑问。讨论的结果是保持现状。
    对于团体名称规范方面,据说国图不完全依据《规则》的原因是,书目库中现有的数百万条记录无法更改。听到这种说法,当时我的想法是,只要确定规范形式,完成规范记录,书目记录按规范作全域更新即可,不存在无法更改的问题。

    今天看到博客“图书馆果汁”(Library Juice)上一篇“芭芭拉访谈”(Interview with Barbara Tillett),才感到,具体操作时需要考虑的问题,实际上远没有外人想象的那么容易。同时,只要本着积极的态度,总是可以期望找到解决问题之途的。
    芭芭拉是美国国会图书馆编目政策与支持办公室(CPSO)主任(她是编目领域的名人,还有一大堆其他头衔),此番就美国国会图书馆标题表(LCSH)接受博主Rory Litwin访问。起因是Sanford Berman撰写专著批评LCSH改革不够,用词欧洲中心、男性至上、污辱与晦涩等等。芭芭拉的回应,既说明LCSH不断进取的现状,又表明积极改进的态度。可以说通过博客这个平台,为LCSH好好地做了一回宣传。

    通读全文,有以下心得:

1、技术变化才使很多事情成为可能。LCSH已有百多年历史,尽管一直在更动,但直到1981年卡片目录关闭后才能做更多改变。比如第一次世界大战,在1981年前一直是“欧战”(European War, 1914-1918),之后才改成“世界大战”(World War, 1914-1918)。毕竟逐个改卡片不是好玩儿的。

2、现有技术不一定能解决所有问题。在LCSH中,基督教的神“上帝”直接用 God,而其它教的神就要另加限定词,如“安拉”用 God, Muslim。对于一个多民族的国家,这样做显失公平。但由于 God 在LCSH还指泛称的“神”,这就导致不能直接将 God 通过全域更新改成如 God (Christianity) 这样的形式。

3、需要不断探索解决问题的方法。仍是对 God,现在已经找到了解决方法,就是配合使用分类号,确定其含义是泛称的“神”还是基督教的“上帝”。

    就是老毛的话:“世上无难事,只要登攀。”