乐此不疲 – 第 35 页 – 编目精灵III

百度与Google的“相关搜索”

正月初四晚，年过得差不多了，无所事事在Google中查自己的博客。结果发现页尾提示的“相关搜索”居然是“编目精灵+真名”，不免引来好奇心，想看看百度结果会是如何。结果两相比较如下：

·“百度一下，找到相关网页约38,200篇，用时0.001秒”
·Google“网页?约有14,000项符合”编目精灵“的查询结果…（搜索用时 0.19 秒）”

百度与Google检索“编目精灵”结果对照

除了结果显示方式两者不同外，还有两个发现：

1、排序结果：前两项百度比Google合理，新家在前、老家在后。第三项以后则见仁见智，不好说孰优孰劣了（Google的第三项是“Web20与信息服务>> 视频5：编目精灵”）。

2、相关搜索：Google基于对用户搜索历史数据的分析，有点推荐“检索此词的用户还检索的其他词”的意思，揭示出一些隐含信息，比如让我知道了原来有一些人在搜索编目精灵的真名。而百度只是对当前搜索关键词的简单匹配，推荐意义不是很大。

后来又去查了其他几个搜索引擎，都无法与Google和百度相比。其中最好的雅虎，“共返回约 59,287 项 [用时 0.054 秒]”。搜索结果页尾也有相关搜索（相当于百度的相关搜索），页首另有热门搜索（类似Google的相关搜索），只是没有出现像Google那样令人感兴趣的信息。雅虎的搜索结果数量在几个搜索引擎中最多（自然无效结果也最多），排序比Google还差，老家第一，新家排到了第四。

结论是：中文搜索，百度确实不错。
但除了上述第2条，百度还有需要向Google学习的地方，很多人都指出过——那就是广告。比如在百度搜索“编目”，第一个结果是某书屋，只在结尾处有两个小字“推广”，实在不容易让用户注意到那是一个广告（此结果只有一个广告，用户还算比较幸运）。在Google搜索“编目”，该书屋的广告出现在搜索结果的右栏，自然是钱出得比较少。但即使他出了更多的钱，Google也会将广告用浅蓝色底明显标记，并在右首标明为赞助商链接，以免用户误点、广告主花冤枉钱。

另见：搜索“编目”，今天我第一 (2005-06-28)

Scopus的作者规范与分面检索

去年五月，看到“Scopus Author Identifier”的报道，觉得是一种作者的规范。访问Scopus网站，可惜相关资料只限订户观看。不几日发现本馆正在试用Scopus，正好登录进去一看究竟。

    数据库试用时对Scopus的介绍：
    SCOPUS 是 Elsevier 公司的文摘索引数据库，它收录了 13450 种经同行评议的出版物 (主要为期刊) ，学科覆盖数学、物理学、化学、生物学、生命科学、农业、地球和环境科学、工程、心理学、社会科学等领域。
    SCOPUS 数据库还有以下几个主要特点：
1 ．可以检索论文被其它文献引用的情况；
2 ．可以检索到上至 19 世纪发表的文章；
3 ．可以检索到互联网上的相关文献。
用户可通过 Scopus 网页右上方红色的“ Register ”进行个人注册，从而利用 Scopus 中的 Alert 推送服务。

今天想起此事，把当时的截屏在此存个档：
1、在基本检索与高级检索之外，单独设作者检索，比较特别。并且作者检索也可以设置推送，可用于跟踪特定作者的检索。

Scopus Author search

2、作者检出结果注明作者的主题领域以及所在单位，便于区分同名者。除列出命中文献数量外，还有作者详细信息链接。

Scopus Author result

3、作者详细信息页面左栏有两部分，Personal 列出作者名称的其他形式等关于其本身的信息，相当于名称规范档；Research 部分有其收录文献数、被引数及合作者数及其链接。右栏是 Documents 的详细列表，可直接链接到文摘信息 Abstract+Refs。

Scopus Author details

看 Scopus 网站上的最新演示，检索界面不见了 Author Search，不知道是不是演示版的简化。另有新发现，也可能是以前没有注意到：

Scopus Refine results
1、有 Full Text 链接。演示没有说明这个文摘索引库中的全文由何而来。
2、检索结果页面上方的 Refine Results，提示与本次检索有关的内容，供进一步限定 limit to 或排除 exclude。共有五个面：出处/题名、作者、发表年、文献类型和主题领域。分面检索潮流中的又一个例子。

搜索我们的历史：为什么百度不做？

百度要去日本搜索引擎市场占一席之地，据说是因为中国的搜索广告市场太小。市场我不懂，但我知道百度在中国还有很多可搜索的内容没有做。

Google在新闻搜索的基础上，推出了新闻档案搜索（Google News Archive Search），把《华盛顿邮报》《国际先驱论坛报》《纽约时报》《福布斯》《时代》等报刊一二百年的全文扫描后上网，让大家按时间搜索查看，为什么百度不可以也摩仿一把呢？

    Google推出图书搜索，与出版社合作时很顺利，但与图书馆合作，就惹上了版权官司。百度很谨慎，只做没有版权问题的“国学”，内容少得可怜；只与图书馆合作搜索书目信息（与北大，与中科院），建最大的中文图书检索库。不知道这个最大的中文书目库是不是已经投入使用，我从来没有在百度的搜索结果中见到过（当然百度我也用得不多）。

    目前虽然很多图书馆都在做古籍与民国文献的全文扫描，但真正做OCR的很少。“百度国学”中的很多内容，其实已经在网上其它地方可以找到，而那些同样没有版权问题的古老报刊，却是真的很难获取。如果百度做了，善莫大焉。
    八十年代，上海书店影印出版从1872到1949年的全套《申报》。为方便利用，其后本馆有不少人参与《申报索引》的制作。一切都是手工的，其中艰辛可想而知。索引陆续出版了若干年，终于没法继续、半途而废了。像《申报》这样的报纸各地应该也有不少，对研究中国近现代社会的变迁很有价值。如果百度接手做这件事，岂不美事一桩？[update 2006/12/15: 1919-1949的《申报》索引已编制完成，出版正计划中]

百度为什么不做呢？繁体字OCR的可用性问题要解决，以现在的技术，应该不是件太困难的事。[update 2006/12/16: CADAL正在做繁体字文献的OCR]
不会是没有图书馆愿意合作吧？如果百度有像Google那样与图书馆合作的意向，我首先自荐本馆。