百度与Google的“相关搜索”

    正月初四晚,年过得差不多了,无所事事在Google中查自己的博客。结果发现页尾提示的“相关搜索”居然是“编目精灵+真名”,不免引来好奇心,想看看百度结果会是如何。 结果两相比较如下:

·“百度一下,找到相关网页约38,200篇,用时0.001秒”
·Google“网页?约有14,000项符合”编目精灵“的查询结果…(搜索用时 0.19 秒)”

百度与Google检索“编目精灵”结果对照

    除了结果显示方式两者不同外,还有两个发现:

1、排序结果:前两项百度比Google合理,新家在前、老家在后。第三项以后则见仁见智,不好说孰优孰劣了(Google的第三项是“Web20与信息服务>> 视频5:编目精灵”)。

2、相关搜索:Google基于对用户搜索历史数据的分析,有点推荐“检索此词的用户还检索的其他词”的意思,揭示出一些隐含信息,比如让我知道了原来有一些人在搜索编目精灵的真名。而百度只是对当前搜索关键词的简单匹配,推荐意义不是很大。

    后来又去查了其他几个搜索引擎,都无法与Google和百度相比。其中最好的雅虎,“共返回约 59,287 项 [用时 0.054 秒]”。搜索结果页尾也有相关搜索(相当于百度的相关搜索),页首另有热门搜索(类似Google的相关搜索),只是没有出现像Google那样令人感兴趣的信息。雅虎的搜索结果数量在几个搜索引擎中最多(自然无效结果也最多),排序比Google还差,老家第一,新家排到了第四。

    结论是:中文搜索,百度确实不错。
    但除了上述第2条,百度还有需要向Google学习的地方,很多人都指出过——那就是广告。比如在百度搜索“编目”,第一个结果是某书屋,只在结尾处有两个小字“推广”,实在不容易让用户注意到那是一个广告(此结果只有一个广告,用户还算比较幸运)。在Google搜索“编目”,该书屋的广告出现在搜索结果的右栏,自然是钱出得比较少。但即使他出了更多的钱,Google也会将广告用浅蓝色底明显标记,并在右首标明为赞助商链接,以免用户误点、广告主花冤枉钱。

另见:搜索“编目”,今天我第一 (2005-06-28)

Scopus的作者规范与分面检索

    去年五月,看到“Scopus Author Identifier”的报道,觉得是一种作者的规范。访问Scopus网站,可惜相关资料只限订户观看。不几日发现本馆正在试用Scopus,正好登录进去一看究竟。

    数据库试用时对Scopus的介绍:
    SCOPUS 是 Elsevier 公司的文摘索引数据库,它收录了 13450 种经同行评议的出版物 (主要为期刊) ,学科覆盖数学、物理学、化学、生物学、生命科学、农业、地球和环境科学、工程、心理学、社会科学等领域。
    SCOPUS 数据库还有以下几个主要特点:
1 . 可以检索论文被其它文献引用的情况;
2 . 可以检索到上至 19 世纪发表的文章;
3 . 可以检索到互联网上的相关文献。
用户可通过 Scopus 网页右上方红色的“ Register ”进行个人注册,从而利用 Scopus 中的 Alert 推送服务。

    今天想起此事,把当时的截屏在此存个档:
1、在基本检索与高级检索之外,单独设作者检索,比较特别。并且作者检索也可以设置推送,可用于跟踪特定作者的检索。

Scopus Author search

2、作者检出结果注明作者的主题领域以及所在单位,便于区分同名者。除列出命中文献数量外,还有作者详细信息链接。

Scopus Author result

3、作者详细信息页面左栏有两部分,Personal 列出作者名称的其他形式等关于其本身的信息,相当于名称规范档;Research 部分有其收录文献数、被引数及合作者数及其链接。右栏是 Documents 的详细列表,可直接链接到文摘信息 Abstract+Refs。

Scopus Author details

    看 Scopus 网站上的最新演示,检索界面不见了 Author Search,不知道是不是演示版的简化。另有新发现,也可能是以前没有注意到:

Scopus Refine results
1、有 Full Text 链接。演示没有说明这个文摘索引库中的全文由何而来。
2、检索结果页面上方的 Refine Results,提示与本次检索有关的内容,供进一步限定 limit to 或排除 exclude。共有五个面:出处/题名、作者、发表年、文献类型和主题领域。分面检索潮流中的又一个例子。

搜索我们的历史:为什么百度不做?

    百度要去日本搜索引擎市场占一席之地,据说是因为中国的搜索广告市场太小。市场我不懂,但我知道百度在中国还有很多可搜索的内容没有做。

    Google在新闻搜索的基础上,推出了新闻档案搜索(Google News Archive Search),把《华盛顿邮报》《国际先驱论坛报》《纽约时报》《福布斯》《时代》等报刊一二百年的全文扫描后上网,让大家按时间搜索查看,为什么百度不可以也摩仿一把呢?

    Google推出图书搜索,与出版社合作时很顺利,但与图书馆合作,就惹上了版权官司。百度很谨慎,只做没有版权问题的“国学”,内容少得可怜;只与图书馆合作搜索书目信息(与北大与中科院),建最大的中文图书检索库。不知道这个最大的中文书目库是不是已经投入使用,我从来没有在百度的搜索结果中见到过(当然百度我也用得不多)。
   
    目前虽然很多图书馆都在做古籍与民国文献的全文扫描,但真正做OCR的很少。“百度国学”中的很多内容,其实已经在网上其它地方可以找到,而那些同样没有版权问题的古老报刊,却是真的很难获取。如果百度做了,善莫大焉。
    八十年代,上海书店影印出版从1872到1949年的全套《申报》。为方便利用,其后本馆有不少人参与《申报索引》的制作。一切都是手工的,其中艰辛可想而知。索引陆续出版了若干年,终于没法继续、半途而废了。像《申报》这样的报纸各地应该也有不少,对研究中国近现代社会的变迁很有价值。如果百度接手做这件事,岂不美事一桩?[update 2006/12/15: 1919-1949的《申报》索引已编制完成,出版正计划中]

    百度为什么不做呢?繁体字OCR的可用性问题要解决,以现在的技术,应该不是件太困难的事。[update 2006/12/16: CADAL正在做繁体字文献的OCR]
    不会是没有图书馆愿意合作吧?如果百度有像Google那样与图书馆合作的意向,我首先自荐本馆。