亚马逊“书内搜索”扩展功能

    平时上亚马逊,只注意到那些在国内购书网站上常见的推荐相关图书的信息。那天看到OCLC首席科学家Lorcan Dempsey绕有兴趣地使用亚马逊的数据挖掘功能(Amazon: making data work),并预言这些数据可作进一步研究。于是再去看亚马逊的特色,前几天已经写了“Google与Amazon书内搜索比较”,今天再看看亚马逊由图书全文扫描所获数据延伸出来的其他功能。
    亚马逊部分图书(标记为Search Inside!)有全文电子版作为数据源,除“书内搜索”(Search Inside This Book)、“浏览样本页”(Browse Sample Pages)外,还提供了一些有趣或者精彩的功能,在Inside This Book栏目下有:

Statistically Improbable Phrases (SIPs)
    特色词组。亚马逊首创术语,由词频统计得出,某词组在该书中出现次数在所有“书内搜索”图书中相对较多。可由这些SIPs了解该书特色,前述Dempsey文章即围绕此一功能。
    如Cataloging and Classification for Library Technicians一书第一个SIP即nonfiling characters,可见该书对MARC格式解读之细致。
    还可点击SIPs了解采用该词的其他图书及在书中出现的频率。

Books on Related Topics
    相关论题图书。这里的“相关”判断利用的是两书相同SIPs的数量。

Concordance
    词频索引。依字顺排列最高频的100个词,由字体大小显示词频高低。比如,在亚马逊的几本编目图书中,以Manheimer&aposs Cataloging and Classification: Revised and Expanded最注重“规则”rule。

Text Stats
    文本统计,包括可读性、复杂性等。
    外国人有很多创新,而很多创新又是在充分利用前人已经完成的研究的基础上的。亚马逊的“可读性”就采用了几种早已有之的指数:

1、Fog Index
    阅读与理解一段文本所需的正规教育年限。
    以高中毕业12年(K-12)计算,一般专业书多在12以上,即要求大学水平。也有16以上的,那是硕士水平了。但是Library Research Models: A Guide to Classification, Cataloging, and Computers一书,题名虽为Guide,分值居然高达21,非博士不能读?
2、Flesch Index
    开发于1940年的一个指数,最高值100,分值越高越易读,0-30适合大学水平。
    想不到1940年就已经有文本分析可读性的量化研究。
3、Flesch-Kincaid Index
    Flesch Index的更改进版,也与教育年限相对应。
    对比了一些书的可读性指数,似乎lesch-Kincaid指数值都比Fox指数值低,如Library Research Models一书为18。

    “复杂性”中有一个指数是每个句子包含的词数,Library Research Models一书的此值为31.1,确实是个十分恐怖的数字。估计可读性计算也与此值有关。
    上面这些内容或许太严肃了些。亚马逊在最后提供了二个娱乐统计数据
每1美元可买多少个词(买家看看值不值)
每1盎司有多少个词(大概因为邮寄按重量计费,所以亚马逊数据库中才会有图书重量数据)

    Dempsey感兴趣的The Rise of the Network Society一书还有引文功能(Citations),包括引用与被引。该书引用了199本书,又被230本书引用。引用来源图书似有重复,且由于数据原因,仅限亚马逊“书内搜索”图书。
    “引文”也是亚马逊书内搜索中值得进一步关注的功能。

另:亚马逊有一些标记为“Look Inside”的图书,如“The Intellectual Foundation of Information Organization”,没有“书内搜索”及扩展功能,只有“浏览样本页”功能:封面、封底、目次、版权页、片断(通常为图书起始部分)、索引等。

 

Google与Amazon书内搜索比较

    不知为什么,Google没有象Google Scholar那样,单为Google Print设一个检索页面,弄得大家要检索Google Print收录的图书时,只能在Google网页搜索时,使用“book”一词进行搜索(目前限英文界面)。而且,检索结果还只限3个。

    SearchEngineWatch新闻编辑Gary Price最近写了一篇破解之文“Going Under Cover with Book Search Tools”,传授了二种任意检索Google Print中图书的方法。

    方法一(例子改为我自己的了):
1、在Google搜索框输入检索词(注意“界面语言”选英文),如:book “information retrieval”
2、图书检索结果标记为:Book results for “information retrieval”。任意点击3种图书中的一种,如Visual Information Retrieval
3、在窗体下部有一个搜索框,边上有一个“Search all books”按钮,可以实现在所以Google Print图书中搜索。

    方法二比较简单,只是需要记一下。先在浏览器地址栏输入:
http://print.google.com/print?q=
再在等号后加上检索词,同样如”information retrieval”,检索结果相同。

2005-5-28更新
    Google Print首页已更新,设置了检索页面,所以Gary Price的“方法一”已无用武之地;“方法二”仍然有效,虽然直接使用没有什么意义,但可用于Google的“工具栏搜索”Google Deskbar
    原来Google Print首页内容现在放在About Google Print。

2006-1-23更新
    2005年晚些时候,Google Print已改称Google图书搜索:http://books.google.com/

    编目时偶而也用Google Print看图书的目次。这回花时间用了一下左栏的书内搜索(Search within this book),同亚马逊的书内搜索(Search Inside!)作一对比:

1、图书基本信息:
    亚马逊提供封面、目次、版权页、片段、索引、封底。“片段”是其可公共访问的页面,可前后翻页。
    Google提供封面、版权页、目次、索引。可由原文页前后翻页。
    二者相比差别不大。

2、搜索功能:
    Google可以用引号搜索词组,搜索结果比亚马逊更准确。

3、检索结果:
    亚马逊检索结果一览每项三行左右,有一定的可读性。
    Google检索结果一览每项二行,且行宽小于亚马逊,基本不可读。

4、原文显示:
    对一般检索者,亚马逊只显示可公共访问的“片段”页面。只有注册用户才能由检索结果点击页码看原文,即使该页属于其公开的“片断”。
    Google可直接由检索结果点击相应页码看原文:
1) 不是每页都可看,比如对于Encyclopedia of Library and Information Science,第435页即显示[Sorry, this page&aposs content is restricted.]。
2) 一本书肯定不能从头看到尾,但没有地方显示究竟可以看几页。据Gary Price说,可看页数由出版商决定(Publisher Program)。
3) 那些由Google图书馆计划(Library Project)数字化的图书,如果受版权保护,则只能看书目信息,即Book Info View Only。Gary Price说在美国公共领域是1923年前,如果在美国以外,Google会认定在1900年前!这么古老的内容,如果真有价值,相信谷腾堡计划(Project Gutenberg)中也会有的了,或许“善本”例外(外行话不足为凭)。

5、原文保存与打印:
    亚马逊:不可选择保存原文图像,打印时原文位置留空,但可通过保存网页方式保存原文(独立的jpeg文件;2005/5/14更新:仅限显示的第一页)。
    Google:不可选择保存原文图像,打印时原文位置留空,原文无法保存(保存网页后原文每次均需联网下载),唯一的保存原文方法就是拷屏(PrintScreen)了。

当日更新(21:30):

    刚看了蒙大拿州立大学参考馆员Greg R. Notess在Online (vol.29 no.3 May/June 2005)上发表的专栏文章:Searching Books Between the Covers。该文讨论的也是书内搜索问题。文中有历史描述,有些有趣的Google、Amazon和A9搜索对比,还有书内搜索在参考服务中应用的实例。
    如作者所言,书内搜索仍在不断变化。所以他的文章、Gary Price的文章以及上文,或许很快就过时了。

 

广告网站――Blingo搜索彩票

    平时上的网站不多,但凡访问广告网站多是误入。这些网站大多不但吸引不了人,反而让人心生厌恶――广告比自己关心的内容更显著、且常常妨碍关注内容的显示;或者搜索到后点击链接,才发现根本就没有自己想要的内容。网站的经营者根本就没想过以如此拙劣的手法,何以吸引人不断光顾,从而扩大广告的影响,并进而吸引更多的广告客户?

   去年11月发布的”搜索彩票”Blingo Search Sweepstakes(http://www.blingo.com/),倒是另辟蹊径――以搜索中奖的方式吸引上网者利用该网站进行搜索。搜索有奖,就像中彩!不但自己可能中彩,而且一旦自己推荐的朋友中奖,自己也能得到奖品。3月份首奖是苹果的iPod。
    我所知不多,但猜想访问中奖类的网站大概不是新鲜点子。然而如果纯为中奖而访问,有多少赞助商来做广告就值得怀疑了。Blingo吸引人的地方,是利用Google进行搜索,搜索结果界面一如Google般简洁,只是赞助商链接放在搜索结果最前面,而不似Google放在右侧。

    试查information,在Blingo中的搜索结果,数量比Google检索结果要少,约为五分之一。首页内容相同,顺序小异。对搜索者,这样的结果已足够使用了。
    对美国人而言,反正平时也要用Google的,就把www.google.com改成www.blingo.com,同时增加一次中彩机会,何乐而不为?(此网站仅美国人可参与中彩)
    值得玩味的是网站的规则,它希望你经常用该网站检索,但如果搜索过多(而有作假嫌疑),反而会丧失参与资格,并且点击赞助商链接也不能增加中彩机会。网站以此保证它向赞助商提供的是有效的而非欺骗性的访问。

注:原发于05-3-31,不知何故被删。