搜索我们的历史:为什么百度不做?

    百度要去日本搜索引擎市场占一席之地,据说是因为中国的搜索广告市场太小。市场我不懂,但我知道百度在中国还有很多可搜索的内容没有做。

    Google在新闻搜索的基础上,推出了新闻档案搜索(Google News Archive Search),把《华盛顿邮报》《国际先驱论坛报》《纽约时报》《福布斯》《时代》等报刊一二百年的全文扫描后上网,让大家按时间搜索查看,为什么百度不可以也摩仿一把呢?

    Google推出图书搜索,与出版社合作时很顺利,但与图书馆合作,就惹上了版权官司。百度很谨慎,只做没有版权问题的“国学”,内容少得可怜;只与图书馆合作搜索书目信息(与北大与中科院),建最大的中文图书检索库。不知道这个最大的中文书目库是不是已经投入使用,我从来没有在百度的搜索结果中见到过(当然百度我也用得不多)。
   
    目前虽然很多图书馆都在做古籍与民国文献的全文扫描,但真正做OCR的很少。“百度国学”中的很多内容,其实已经在网上其它地方可以找到,而那些同样没有版权问题的古老报刊,却是真的很难获取。如果百度做了,善莫大焉。
    八十年代,上海书店影印出版从1872到1949年的全套《申报》。为方便利用,其后本馆有不少人参与《申报索引》的制作。一切都是手工的,其中艰辛可想而知。索引陆续出版了若干年,终于没法继续、半途而废了。像《申报》这样的报纸各地应该也有不少,对研究中国近现代社会的变迁很有价值。如果百度接手做这件事,岂不美事一桩?[update 2006/12/15: 1919-1949的《申报》索引已编制完成,出版正计划中]

    百度为什么不做呢?繁体字OCR的可用性问题要解决,以现在的技术,应该不是件太困难的事。[update 2006/12/16: CADAL正在做繁体字文献的OCR]
    不会是没有图书馆愿意合作吧?如果百度有像Google那样与图书馆合作的意向,我首先自荐本馆。

Google图书搜索成为世界OPAC?

    昨天(8月24日),Google图书搜索增加了图书馆目录搜索功能,搜索的是一些与Google合作的联合目录,通过联合目录再链接到个别图书馆。

    这是检索作者Immanuel Velikovsky的实例。在图书搜索结果的屏幕下方,是图书馆目录搜索结果(Search library catalogs for),每个结果都有 Find libraries … 链接。

    也可以在高级搜索(Advanced Book Search)中选择图书馆目录(Library catalogs),直接查找所有的联合目录。看“Harry Potter chamber of secrets”的实例,,首页的十个检索结果链接到了七个国家的联合目录,比如美国的为OCLC的WorldCat。

    查中文有结果的不多,并且检索结果有时有些奇怪,但还是可以查到一些,如“中国”,链接显示与 Find libraries (USA),Find libraries (Denmark),Find libraries (Slovenia) 这类格式不同,就是直接的 Find libraries,链接到中科院的文献传递系统。

    目前参加的有15个联合目录,包括了30多个国家的图书馆。Google希望有更多的联合目录加入其行列。或许今后大家查图书馆目录(OPAC)就都从Google开始了?

参见:
Official Google Blog: Finding the wealth in your library (and everyone else&aposs)

 

Google的《莎士比亚戏剧全集》

    Google图书搜索推出了《莎士比亚戏剧全集》(The complete plays of Shakespeare),分为悲剧、喜剧、罗曼史和历史剧四大类。在剧名下有“All Editions”(FRBR化),链接到图书搜索结果。如要看全文,依图书版权情况不同,有几种可能:

Full view 可以看全文
Limited preview 可以看部分全文(整页)
Snippet view 只能看文本片断
No preview available 不能看文本

    从结果看,大部分都属于只可看部分全文的情况。莎士比亚的著作应当早过了版权保护期,但Google图书搜索收录的是图书扫描本,所以版权情况就随出版年限而有所不同了。


    在这个专集中, 集成了很多的Google服务,感觉上我们可以用Google完成从娱乐到研究的任何事情

主页

Google Web Search:搜索莎士比亚相关网页
Google Scholar:搜索Google学者中关于莎士比亚的评论与研究
Google Groups:搜索讨论莎士比亚的Google论坛
Google Video:搜索莎士比亚相关的视频
Google Image Search:搜索莎士比亚的图片
Google News:搜索与莎士比亚有关的新闻报道
另外,还推荐下载Google Earth,理由是可以访问全球剧院,以及与莎士比亚相关的地标――无法实地察看者,至少也可以看个高清晰度卫星图过把瘾。

书目页:单击剧名,链接到书目信息页,除书目信息外,还有:

本书书评搜索链接(Google Web Search)
本书相关网页搜索链接(Google Web Search)
Buy this Book:链接到多家网上书店,以及Froogle (Google购物服务),就买这本书
Find this book in a library:链接到OCLC的Open WorldCat,不想买书,可以看看能否在图书馆借到

图书页:由“All editions”链接到图书搜索结果,再看某一版本图书,除直接显示扫描的页面外,还有:

封面、封底、题名页、版权页、目次页
Search within this book:非常有用的“书内全文搜索”
Buy this Book(同上)
还有一个链接,让全体网民帮Google纠错:See a problem with this page? Please tell us.

    如果从获取全文角度,Google的这个莎翁戏剧全集显然言过其实,至少肯定不是一个很好的来源。一些图书网站则基本网罗了莎翁作品,但在相关信息的搜索、组织与呈现方面,这些网站与与图书馆OPAC更相似,与Google的差距不是一点点。比较:  

    谷腾堡的莎士比亚作品一览“The Comedy of Errors”书目信息页
    Bookyards的莎士比亚作品一览(直接点击题名下载全文)
    
    不过,Google将图书全文网站的搜索结果整合进图书搜索,应该是迟早的事吧?

    To Google or not to Google, that’s not a question.