《基于WWW的学术信息检索策略》笔记

      夏立新著《基于WWW的学术信息检索策略》(华中师范大学出版社,2004年6月)

1、我所欣赏的书中所持观点

“资料的筛选成本已经远远大于资料的搜集成本。对于大多数用户来讲,帮助搜集更多资料的意义已越来越小,但帮助精选资料的需求将会越来越强烈。”(34页)
“现代信息技术的发展与完善,特别是人工智能技术的实用程度的提高及其在信息检索领域的应用可能会逐步缩小人工索引方式和自动索引方式之间的差距。”(56页)
[注:可惜所比为”自动索引”即一种利用计算机的受控标引,而非书中所称”基于网络机器人的索引”即关键词索引。]
“检全率作为网络信息检索效果评价的标准需要重新定义”(63页。引自曾民族《网络信息检索现状和性能评价》,情报学报1997年第2期?)
“关键词检索系统像一个’黑箱’,’透明度’很低,只有熟练掌握其检索技巧的用户,才有可能顺利达到检索目的。”(64页)

 

2、书中提出的WWW环境下的检索效果评价标准
      Cleverdon在1966年提出的评价检索系统性能的六条标准:收录范围,响应时间,输出形式,用户负担,查全率,查准率(118页)。本书认为”在WEB环境下,查全率没有实际意义,人们更关心的是‘查准’问题”,故”对上述6条评价标准作如下的修订与补充”(119-121页):

(1)覆盖率与信息质量
“所收录的信息质量,对于网络信息检索工具来说尤为重要。”
(2)查全率和查准率
“明确检索目标,有助于检索查在检索过程中灵活选用不同的检索技术,采用相应的扩检、缩检措施,实现自己的检索目标。”
(3)用户负担
“利用网络信息检索工具,…用户负担主要体现在筛选信息的时间成本。这也从一个方面说明,用户在选择网络信息检索工具时,查准率应该成为一个重点考虑的因素。”
(4)输出形式
输出信息的详略和排序方式。
(5)响应时间

3、关于情报检索语言
      研究信息检索,不可避免涉及检索语言。书中随处可见图书情报界对检索语言较常见的态度,即质疑非受控语言以及使用自然语言的搜索引擎的检索效果。无奈现在网络文献数量太大,非控或后控已是不可阻挡的潮流。而人工智能技术的发展,其实已经在很大程度上改善了关键词检索的效果。
      无论如何,应该采用有说服力的例子证明自己的观点。本书中如此推荐XML置标(127页):

      例如,一位浏览学术出版物的用户使用了检索词”brown”,他可能是查询Donald Brown写的论文,也可能是查询Brown大学出版的论文,还有可能是查询有关棕色熊”brown bear”的论文,他不大可能是同时要查询这三方面的论文。如果他能够确认如下的一种形式:Brown, Brown, 或brown, 那么,他的检索将非常准确。

      用户在检索的时候,难道会只用”brown”,而不是直接用”Donald Brown”或”Brown University”或”brown bear”吗?

      时移世易,若干年前缺乏广泛实用的后控检索系统,我也曾质疑关键词检索效果。二、三年过去了,以作者对现代检索技术的了解,看法是否也会有所改变呢?

 

图书馆公司的ITS.MARC数据库

      图书馆公司TLC (The Library Corporation) 是最早以CD-ROM方式提供MARC数据的公司,其BiblioFile曾风靡一时。在前联机编目时代,我国不少图书馆都曾是其客户。如今,它仍然向图书馆提供书目数据,其ITS.MARC,声称是世界最大的免费检索MARC数据库,含1500万条记录。可以同时检索它的多个数据库,命中的部分记录有主题。如要看MARC格式,则必须成为其用户,或者做30天的试用。

      它的经营方式沿用了BiblioFile的按库收费,为不同类型图书馆提供套餐类书目数据库订购,而不是OCLC的逐条记录付费。所以虽然看上去有一、二十个数据库,实际主要来源是美国、加拿大的如LC、NLC、NLM及美国政府,只是对这些来源数据进行了各种组合。
      需要注意的是只有British MARC、Canadian MARC (CanMARC)来自本国,而French MARC、MARC en Espanol (Spanish)并不来自法国、西班牙本土,所以后两个数据收录的法语、西班牙语文献不会很全面。
      它的特色是三个声像资料库,即A/V Access、MediaMARC、NICEM A-V MARC。如要做英文原版声像资料的编目,或许有参考价值。

附ITS.MARC数据库一览表:

 Asian MARC = 来自LC的亚洲记录
 A/V Access = 来自Professional Media Service Corp的流行声像资料
*British MARC = 来自British Library的记录
*Canadian MARC = 来自National Library of Canada,及LC MARC外国中的加拿大记录
 Contributed Research and Academic = 来自研究与学术图书馆的BiblioFile用户
 Contributed School and Public = 来自学校与公共图书馆的BiblioFile用户,特别适合于回溯转换
 Docufile = 1982- 政府文献数据库,包括美国各州、联邦及外国政府,以及联合国
*French MARC = 来自LC、NLM、USGPO、其他美国政府机构及TLC客户的法语文献记录超过70万条
 LC MARC Backfile = LC记录
 LC MARC English = LC英语出版物记录
 LC MARC Foreign = LC非英语出版物记录
*MARC en Espanol = 来自LC、NLC、NLM、USGPO、其他美国政府机构及BiblioFile图书馆的西班牙语文献记录
 MediaMARC = 来自Library Conversions Limited Company (LCLC)的教育声像资料,从近250所学校图书馆回溯转换,5万余条记录,高质量、内容丰富,平均大小为LC相应记录的2-3倍。
 MedMARC = 来自NLM,及LC、NLC的医学记录。
 NICEM A-V MARC = 来自National Information Center for Educational Media (NICEM)的音像资料书目数据库
 SEARS Cataloging = 包括带DDC和希尔斯主题的MARC记录
 TheoMARC = 来自LC及(用户)贡献记录。

 

新浪“爱问”:一个助人为乐的游戏

大约半月前看到谈论新浪”爱问”iAsk,一个网友互助回答问题的网站,就去看了一下。当时有两个感觉:
一、爱问颇似Google Answers,不过是用虚拟货币代替美金。在中国,要想让大众付钱提问,一则缺乏吸引力,二则也存在网上支付瓶颈。好奇的是,新浪如何赚钱?因为Google Answers对每个提问至少有5毛美金进帐,而爱问似乎并没有提供收益。
二、又多了一个”玩物丧志”的场所。在Google Answers,虽有数百名专家负责答题,但普通人也可以通过答题展现自己,最终申请成为专家,走上打工赚钱之路。爱问所获既然是虚拟的钱,那就纯是一场游戏了。爱问设置了复杂的积分规则,为每个参与者设置了积分级别,从”新手”一直到最高的”先知”。会有多少人为”圣人”、”先知”这些称号而孜孜以求?
      爱问开张大概也就几个月吧,前日去一看,居然已有一位”先知”诞生了!大致看了一下,这位先知在最近30天中回答了2100多个问题,平均每天70多个,在这场游戏中花了多少时间可想而知。当然,说得高尚点,那是助人为乐。
      在爱问的游戏规则中,每个问题的答案最终由提问者在回答中选择,是否正确依赖于提问者的判断,完全没有权威性。或许这就是有的问题会被反复提出的原因吧。当然,很多问题本身并无唯一正确的答案,提问者与其说是在找答案,不如说是想听听不同的看法。
      最终,爱问会累积成一个巨大的问答库,但基于以上理由,我想它的参考价值是有限的。

      关于”爱问”和其他类似网站服务的异同,keso有较多论及,可参考。