百度要去日本搜索引擎市场占一席之地,据说是因为中国的搜索广告市场太小。市场我不懂,但我知道百度在中国还有很多可搜索的内容没有做。
Google在新闻搜索的基础上,推出了新闻档案搜索(Google News Archive Search),把《华盛顿邮报》《国际先驱论坛报》《纽约时报》《福布斯》《时代》等报刊一二百年的全文扫描后上网,让大家按时间搜索查看,为什么百度不可以也摩仿一把呢?
Google推出图书搜索,与出版社合作时很顺利,但与图书馆合作,就惹上了版权官司。百度很谨慎,只做没有版权问题的“国学”,内容少得可怜;只与图书馆合作搜索书目信息(与北大,与中科院),建最大的中文图书检索库。不知道这个最大的中文书目库是不是已经投入使用,我从来没有在百度的搜索结果中见到过(当然百度我也用得不多)。
目前虽然很多图书馆都在做古籍与民国文献的全文扫描,但真正做OCR的很少。“百度国学”中的很多内容,其实已经在网上其它地方可以找到,而那些同样没有版权问题的古老报刊,却是真的很难获取。如果百度做了,善莫大焉。
八十年代,上海书店影印出版从1872到1949年的全套《申报》。为方便利用,其后本馆有不少人参与《申报索引》的制作。一切都是手工的,其中艰辛可想而知。索引陆续出版了若干年,终于没法继续、半途而废了。像《申报》这样的报纸各地应该也有不少,对研究中国近现代社会的变迁很有价值。如果百度接手做这件事,岂不美事一桩?[update 2006/12/15: 1919-1949的《申报》索引已编制完成,出版正计划中]
百度为什么不做呢?繁体字OCR的可用性问题要解决,以现在的技术,应该不是件太困难的事。[update 2006/12/16: CADAL正在做繁体字文献的OCR]
不会是没有图书馆愿意合作吧?如果百度有像Google那样与图书馆合作的意向,我首先自荐本馆。