《基于WWW的学术信息检索策略》点滴

      看完了夏立新著《基于WWW的学术信息检索策略》(华中师范大学出版社,2004年6月)。上次作“笔记”,勉强可算”先是讲好”,这次作”点滴”,写对全书的整体看法,算是”再讲不足”。

1、遗憾。本书根据作者2002年5月通过答辩的博士学位论文”稍作修改而成”(后记),在写成两年多后才出版,而自己在出版半年后才看。因为该书资料大抵是在2001年收集,所引专著和期刊论文基本上发表于1990年代。在网络发展日新月异的今日,很多信息陈旧也是无可奈何的事了。可以作为世纪之交网络学术信息检索状况的一个历史记录(?)。
2、教科书。作为博士学位论文,除了系统总结现状之外,应该有更多的本人研究成果。但本书很多地方都象是入门读物,而不是研究专著。最有意思的是,书中居然用3页多纸的篇幅介绍一款桌面软件安装、使用的操作步骤(114-117页)。
3、作者的清醒认识。”结束语”中的自评显示了作者对本书的清醒认识,而不能视为谦虚或客套。这是本书的一个亮点――绝非讥讽之言,因为作者指出了他所认识到的本主题应当研究而在书中又未能实现的内容,从而显示了一位博士所具备的素质。

 

电影内外的图书馆员

    Tsingove在他的日志中转述美国新片《图书馆员》公映,美国图书馆协会为此(在图书馆员中)进行一项问卷调查。这是一部惊险刺激的冒险片,主角是图书馆员。受到ALA的关注,我想是因为文艺作品中的图书馆员形象会在一定程度上表现或影响社会对图书馆员的评价。
    我们以前有《周渔的火车》,片中主角的丈夫是一位图书馆员,不知其形象是否与公众心目中的图书馆员形象吻合?

    昨日看到崔永元的《电影传奇》,不意了解到了一个真实图书馆员的电影故事,尽管在那部电影中没有图书馆员。
    该集《电影传奇》讲述摄于1950年代的影片《寂静的山林》背后隐藏着的故事。该片“是一部反特电影,和其它的反特电影相比它有很多不一样的地方,其中一条就是它基本上是依据一个真实事件写成的,这个真实的事件,被公安机关称作十一号案件。”。剧中主人公史永光是一个智勇双全的公安人员,化装成一个小商人,只身前往香港打入敌人内部,摧毁了敌人的空投计划。
    而现实生活中的史永光原型姜旭,并非公安人员,被称为”地工”或”特情”。他完成如此传奇任务,可谓劳苦功高,但只能做个无名英雄。因为属于”卧底”,不能公开自己的经历,所以他不但未能如愿入党,在文革中还成了”特务”。生活经历之曲折,令人唏吁不已。
    之所以写在这里,是因为他的后半生一直是一名大学图书馆员,直到1979年辞世。
    在图书馆的名人殿堂里,还应该加上这个名字――姜旭

 

 

《基于WWW的学术信息检索策略》笔记

      夏立新著《基于WWW的学术信息检索策略》(华中师范大学出版社,2004年6月)

1、我所欣赏的书中所持观点

“资料的筛选成本已经远远大于资料的搜集成本。对于大多数用户来讲,帮助搜集更多资料的意义已越来越小,但帮助精选资料的需求将会越来越强烈。”(34页)
“现代信息技术的发展与完善,特别是人工智能技术的实用程度的提高及其在信息检索领域的应用可能会逐步缩小人工索引方式和自动索引方式之间的差距。”(56页)
[注:可惜所比为”自动索引”即一种利用计算机的受控标引,而非书中所称”基于网络机器人的索引”即关键词索引。]
“检全率作为网络信息检索效果评价的标准需要重新定义”(63页。引自曾民族《网络信息检索现状和性能评价》,情报学报1997年第2期?)
“关键词检索系统像一个’黑箱’,’透明度’很低,只有熟练掌握其检索技巧的用户,才有可能顺利达到检索目的。”(64页)

 

2、书中提出的WWW环境下的检索效果评价标准
      Cleverdon在1966年提出的评价检索系统性能的六条标准:收录范围,响应时间,输出形式,用户负担,查全率,查准率(118页)。本书认为”在WEB环境下,查全率没有实际意义,人们更关心的是‘查准’问题”,故”对上述6条评价标准作如下的修订与补充”(119-121页):

(1)覆盖率与信息质量
“所收录的信息质量,对于网络信息检索工具来说尤为重要。”
(2)查全率和查准率
“明确检索目标,有助于检索查在检索过程中灵活选用不同的检索技术,采用相应的扩检、缩检措施,实现自己的检索目标。”
(3)用户负担
“利用网络信息检索工具,…用户负担主要体现在筛选信息的时间成本。这也从一个方面说明,用户在选择网络信息检索工具时,查准率应该成为一个重点考虑的因素。”
(4)输出形式
输出信息的详略和排序方式。
(5)响应时间

3、关于情报检索语言
      研究信息检索,不可避免涉及检索语言。书中随处可见图书情报界对检索语言较常见的态度,即质疑非受控语言以及使用自然语言的搜索引擎的检索效果。无奈现在网络文献数量太大,非控或后控已是不可阻挡的潮流。而人工智能技术的发展,其实已经在很大程度上改善了关键词检索的效果。
      无论如何,应该采用有说服力的例子证明自己的观点。本书中如此推荐XML置标(127页):

      例如,一位浏览学术出版物的用户使用了检索词”brown”,他可能是查询Donald Brown写的论文,也可能是查询Brown大学出版的论文,还有可能是查询有关棕色熊”brown bear”的论文,他不大可能是同时要查询这三方面的论文。如果他能够确认如下的一种形式:Brown, Brown, 或brown, 那么,他的检索将非常准确。

      用户在检索的时候,难道会只用”brown”,而不是直接用”Donald Brown”或”Brown University”或”brown bear”吗?

      时移世易,若干年前缺乏广泛实用的后控检索系统,我也曾质疑关键词检索效果。二、三年过去了,以作者对现代检索技术的了解,看法是否也会有所改变呢?