雅虎及其上下文搜索、订阅搜索

    一直以来,关注Google而极少关注雅虎。虽然也有雅虎邮箱,还承游园邀请建立了Yahoo! 360,但如雅虎搜索一样,平常都没怎么用。

    数月前,Search Engine Watch将其年度奖中最重要的“杰出搜索服务奖”授予了雅虎,而此前四届此奖均由Google获得。当时看到,也没有什么感觉,因为对雅虎所知甚少,也没花时间去看评语

    前两天看到一些与雅虎有关的消息,花些时间看看了看雅虎。

    一条就是昨天日志中说的索引Thomson Gale公司的付费数据库。
    美联社的那个报道中还提到,与Google引起争议的扫描图书馆藏书计划相对应,雅虎与美国国会图书馆合作扫描那些以前无法访问的文献。不过我在网上没找到相关报道。

    第二条不记得是什么消息了,但让我找到了雅虎的Web Search (Y!Q),也就是上下文检索(Contextual Search)。Beta版,不支持汉语。
    作为例句的“I need to know the gas mileage for my audi a8 2004 model”找到的结果比较准确。有点搞笑的是,搜索结果居然首先出现提示信息“Contextual Search disabled because your query is longer than the supported length.”不过这似乎并没有影响其查找结果,靠后的几个关键词都出现在了检索结果中,而“I need to know”这样的提问语则被忽略。
    但我如法炮制的搜索语“I need to know something about Shanghai”,检索结果中首条就在标题中出现提问语“need to know”,当然文中有“Shanghai”。分析一下,应该是例句中有较多关键词,如Audi、a8、2004、model、gas、mileage。而我的搜索语中仅Shanghai一个关键词而已,如不加入其他短语,则等同于仅输入一个词,故而雅虎将所有词均视为关键词搜索。
    总之遇多关键词检索是可以一试的啦。只是也有疑问,如果我想知道关于“奥迪a8 2004型汽车每公里油耗”,为什么我不直接输入“Audi a8 2004 model gas mileage”,而要输入前面那么多废话?或许汉语与英语句法结构不同,外国人要找同样的信息并非如上面顺序输入,而是如例句那般以gas mileage audi a8 2004 model顺序?而有了上下文,雅虎就可以了解最重要的信息是“Audi A8”,而非“gas mileage”?

    第三条是关于“雅虎订阅搜索”Yahoo Search Subscriptions的,昨天日志中曾提及。Search Engine Watch上的这篇“Yahoo Search Subscriptions Brings Premium Content Into Web Search”有全面深入的报道与评述,值得一看。

 

趋势:通过搜索引擎查找收费电子资源

    那些需要订购才能阅读的网上数据库,由于需要登录访问,所以无法被一般搜索引擎索引,而大部分人也无从知晓其收录内容。而现在,收费数据库“不可见”的情况已经渐渐地改变了。
    美联社6月16日消息,“图书馆供应商向搜索引擎提供资料”(Library supplier to provide material to search engines),说有约5000家美国公共、学术与军事图书馆参与Thomson Gale公司的试验项目,让Google和Yahoo扫描Thomson Gale的收费资源。这些资源日后会在搜索结果中一同出现,但只有参与计划图书馆的读者才能读全文。
    据说为避免搜索结果中订购内容淹没于免费网上资源,Thomson Gale公司为此开设了专门网站AccessMyLibrary,单独提供检索。
    上“雅虎订阅搜索”Yahoo Search Subscriptions去看,其实现在已有了IEEE publications、New England Journal of Medicine和Wall Street Journal等七个数据库。虽然Thomson Gale还要过些日子才会加入,但显然在雅虎,通过订阅搜索,结果是不会淹没于免费网上资源之中的。

    一方面让大型搜索引擎索引,一方面自己提供免费检索,全文数据库商的行动让我想起互联网流行前后联机检索公司的变化。
    在互联网流行前,数据库商本身不提供检索服务,而是将数据库交给联机检索公司如DIALOG(http://www.dialog.com/)之类,通过网络专线提供服务。当时主要是文摘索引,用户花费不菲,得到的结果只是文摘,还要花很多精力去找原文。
    互联网兴起后,出现了以免费索引吸引用户,通过提供原文获取利润的服务,如期刊目次服务UnCover。这时联机检索公司也想起提供原文,其实是很好的增值服务。
    再后来,全文期刊差不多已经取代文摘索引了,以提供期刊原文为生的UnCover式微,卖给了Ingenta。而互联网的开放,让很多数据库商可以自己提供服务,或直接将数据库卖给图书馆而不必借助于联机检索公司。于是,DIALOG需要通过Open Access提供免费检索,吸引更多的人气。至于接下别人愿不愿意付费看原文,那就是另一回事了。

    现在,被免费搜索引擎宠坏了的普通人,只需要结果,并不去考证结果的准确性;有免费资源、简单检索,根本不会费心去找订购资源。于是,拥有大量全文资源的数据库供应商,面对Google、Yahoo,就象当初面对UnCover之类的联机检索公司。
    这些需订阅使用的数据库,主要依靠图书馆订户,而图书馆在经费紧张的情况下,是否继续订购,无疑取决于数据库的利用率。
    只有让人知晓,才能更好生存。G5(很怪的简称)与Google合作索引其馆藏图书,也是此意。
    免费检索,大势所趋。

    有点奇怪的是维普,原来我很喜欢它。虽然没有全文检索,但收录期刊多,且在几个期刊全文库中,就数维普最为开放。www.tydata.com可以随意检索,颇合互联网免费检索的潮流。但前些日子发现,网址似乎换成了www.cqvip.com,无法随意访问了。希望不是我的网络连接有问题。

 

网上图书馆资源门户&编目资源

    图书馆员因特网图书馆
INTERNET LIBRARY FOR LIBRARIANS
http://www.itcompany.com/inforetriever/
    收录内容质量高而全,好似一部图书馆学百科全书,无论入门还是深入,不可不备,我将之视为网上图书馆资源门户。
    内容分为三大类别:

  • Ready Reference 快速参考(常用各类参考工具)
  • Librarianship 图书馆学(采访、编目、流通、参考、管理、自动化…)
  • Accessories 相关信息(图书馆、协会、自动化系统、软件书目共同体、邮件组/新闻组、奖项、工作机会、期刊、教育、供应商…)

    一直关注网上的图书馆学资源尤其是编目资源,在写博客前也玩过一点有意思的,比如“编目计算器”The Cataloging Calculator。但毕竟外国人做的,适合西编的多,有时网速还很慢,没有耐心等,所以很少真正去用,时间长了,也就渐渐地淡忘了。前些日子G君向我推荐Cataloguer&aposs Toolbox,我去看了一下,没有印象。后来找出以前保存的资料,发现台湾中央图书馆的“编目相关网页”中,就包括有这个。似乎公网常不能访问,现转贴该页之“图书馆整理之编目资源网页”部分如下,有兴趣者不妨探访一番,如有好的内容,也可公之同好:

◎Cataloging Division Document
URL:http://infoshare1.princeton.edu:/katmandu/catman.html
Princeton大學圖書館編目部門整理之編目相關資源。
 
◎ Cataloguer&aposs Toolbox
URL:http://staff.library.mun.ca/staff/toolbox/
Memorial University of Newfoundland的Queen Elizabeth II Library 書目控制服務部門整理之編目相關資源。在這網頁上可以查到該圖書館編目政策、作業流程及各項最新統計,同時也能取得網路上各式編目資源,包括美國國會圖書館、加拿大國家圖書館及OCLC所整理或提供的各項編目資源,內容十分豐富。

◎ Cataloging Oasis
URL:http://macfadden.mit.edu:9500/colserv/cat/
MIT Libraries所整理之編目資源。
 
◎ The Interactive Electronic Serials Cataloging Aid(IESCA)
URL:http://staffweb.library.northwestern.edu/serials/iesca/
Northwestern University Library所整理電子期刊編目資源網頁。
 
◎ TPOT:Technical Processing Online Tools
URL:http://tpot.ucsd.edu/
University of California, San Diego圖書館所整理之技術服務相關資源。

    台湾中央图书馆的这个“編目相關網頁”本身也是个很好的资源链接集合,除“圖書館整理之編目資源網頁”外,还有“編目相關團體”、“編目期刊網頁”等,差不多重要的都收录了。

    另外,前述ILL的编目部分(Cataloging)也有挖掘一番的潜力。

  国家图书馆顾犇博士主页有图书馆员常用资料”,看其中“编目员用参考资料”有“国际编目原则声明(草案)”(Statement of International Cataloguing Principles),便知是常常更新的了。也是外国人的东西居多,取的是适合国人的那部分,比较实用。

  这类集成式的编目资源网站或网页,自己大概只有“编目绿洲”和ILL的编目部分认真看过。或许是集成度太高的缘故,看得多了,审美疲劳:资源多是汇集而成,链接为主,原创不多,且互相嵌套,你中有我,我中有你,故而内容大同小异。要一一甄别,找出其中独特而实用的资源,太费时间、精力。
    现在我都有点怕看这些网站,更愿意看面较狭的专题,直接可用的资源而不是链接。之前介绍过美国杜兰大学图书馆编目部主页,着意于其与主题标引相关的内容;图书馆公司的“编目员参考架”,可算是编目规范性参考资料大全。
  当然,集成式的资源门户还是不可少的。至少在没有头绪时,知道从何处进门,看到门后的广阔天地。