夏立新著《基于WWW的学术信息检索策略》(华中师范大学出版社,2004年6月)
1、我所欣赏的书中所持观点
“资料的筛选成本已经远远大于资料的搜集成本。对于大多数用户来讲,帮助搜集更多资料的意义已越来越小,但帮助精选资料的需求将会越来越强烈。”(34页)
“现代信息技术的发展与完善,特别是人工智能技术的实用程度的提高及其在信息检索领域的应用可能会逐步缩小人工索引方式和自动索引方式之间的差距。”(56页)
[注:可惜所比为”自动索引”即一种利用计算机的受控标引,而非书中所称”基于网络机器人的索引”即关键词索引。]
“检全率作为网络信息检索效果评价的标准需要重新定义”(63页。引自曾民族《网络信息检索现状和性能评价》,情报学报1997年第2期?)
“关键词检索系统像一个’黑箱’,’透明度’很低,只有熟练掌握其检索技巧的用户,才有可能顺利达到检索目的。”(64页)
2、书中提出的WWW环境下的检索效果评价标准
Cleverdon在1966年提出的评价检索系统性能的六条标准:收录范围,响应时间,输出形式,用户负担,查全率,查准率(118页)。本书认为”在WEB环境下,查全率没有实际意义,人们更关心的是‘查准’问题”,故”对上述6条评价标准作如下的修订与补充”(119-121页):
(1)覆盖率与信息质量
“所收录的信息质量,对于网络信息检索工具来说尤为重要。”
(2)查全率和查准率
“明确检索目标,有助于检索查在检索过程中灵活选用不同的检索技术,采用相应的扩检、缩检措施,实现自己的检索目标。”
(3)用户负担
“利用网络信息检索工具,…用户负担主要体现在筛选信息的时间成本。这也从一个方面说明,用户在选择网络信息检索工具时,查准率应该成为一个重点考虑的因素。”
(4)输出形式
输出信息的详略和排序方式。
(5)响应时间
3、关于情报检索语言
研究信息检索,不可避免涉及检索语言。书中随处可见图书情报界对检索语言较常见的态度,即质疑非受控语言以及使用自然语言的搜索引擎的检索效果。无奈现在网络文献数量太大,非控或后控已是不可阻挡的潮流。而人工智能技术的发展,其实已经在很大程度上改善了关键词检索的效果。
无论如何,应该采用有说服力的例子证明自己的观点。本书中如此推荐XML置标(127页):
例如,一位浏览学术出版物的用户使用了检索词”brown”,他可能是查询Donald Brown写的论文,也可能是查询Brown大学出版的论文,还有可能是查询有关棕色熊”brown bear”的论文,他不大可能是同时要查询这三方面的论文。如果他能够确认如下的一种形式:Brown, Brown, 或brown, 那么,他的检索将非常准确。
用户在检索的时候,难道会只用”brown”,而不是直接用”Donald Brown”或”Brown University”或”brown bear”吗?
时移世易,若干年前缺乏广泛实用的后控检索系统,我也曾质疑关键词检索效果。二、三年过去了,以作者对现代检索技术的了解,看法是否也会有所改变呢?