乐此不疲 – 第 44 页 – 编目精灵III

亚马逊“书内搜索”扩展功能

平时上亚马逊，只注意到那些在国内购书网站上常见的推荐相关图书的信息。那天看到OCLC首席科学家Lorcan Dempsey绕有兴趣地使用亚马逊的数据挖掘功能(Amazon: making data work)，并预言这些数据可作进一步研究。于是再去看亚马逊的特色，前几天已经写了“Google与Amazon书内搜索比较”，今天再看看亚马逊由图书全文扫描所获数据延伸出来的其他功能。
亚马逊部分图书（标记为Search Inside!）有全文电子版作为数据源，除“书内搜索”(Search Inside This Book)、“浏览样本页”(Browse Sample Pages)外，还提供了一些有趣或者精彩的功能，在Inside This Book栏目下有：

Statistically Improbable Phrases (SIPs)
    特色词组。亚马逊首创术语，由词频统计得出，某词组在该书中出现次数在所有“书内搜索”图书中相对较多。可由这些SIPs了解该书特色，前述Dempsey文章即围绕此一功能。
    如Cataloging and Classification for Library Technicians一书第一个SIP即nonfiling characters，可见该书对MARC格式解读之细致。
    还可点击SIPs了解采用该词的其他图书及在书中出现的频率。

Books on Related Topics
相关论题图书。这里的“相关”判断利用的是两书相同SIPs的数量。

Concordance
词频索引。依字顺排列最高频的100个词，由字体大小显示词频高低。比如，在亚马逊的几本编目图书中，以Manheimer&aposs Cataloging and Classification: Revised and Expanded最注重“规则”rule。

Text Stats
文本统计，包括可读性、复杂性等。
外国人有很多创新，而很多创新又是在充分利用前人已经完成的研究的基础上的。亚马逊的“可读性”就采用了几种早已有之的指数：

1、Fog Index
    阅读与理解一段文本所需的正规教育年限。
    以高中毕业12年(K-12)计算，一般专业书多在12以上，即要求大学水平。也有16以上的，那是硕士水平了。但是Library Research Models: A Guide to Classification, Cataloging, and Computers一书，题名虽为Guide，分值居然高达21，非博士不能读？
2、Flesch Index
    开发于1940年的一个指数，最高值100，分值越高越易读，0-30适合大学水平。
    想不到1940年就已经有文本分析可读性的量化研究。
3、Flesch-Kincaid Index
    Flesch Index的更改进版，也与教育年限相对应。
    对比了一些书的可读性指数，似乎lesch-Kincaid指数值都比Fox指数值低，如Library Research Models一书为18。

    “复杂性”中有一个指数是每个句子包含的词数，Library Research Models一书的此值为31.1，确实是个十分恐怖的数字。估计可读性计算也与此值有关。
    上面这些内容或许太严肃了些。亚马逊在最后提供了二个娱乐统计数据：
每1美元可买多少个词（买家看看值不值）
每1盎司有多少个词（大概因为邮寄按重量计费，所以亚马逊数据库中才会有图书重量数据）

Dempsey感兴趣的The Rise of the Network Society一书还有引文功能(Citations)，包括引用与被引。该书引用了199本书，又被230本书引用。引用来源图书似有重复，且由于数据原因，仅限亚马逊“书内搜索”图书。
“引文”也是亚马逊书内搜索中值得进一步关注的功能。

另：亚马逊有一些标记为“Look Inside”的图书，如“The Intellectual Foundation of Information Organization”，没有“书内搜索”及扩展功能，只有“浏览样本页”功能：封面、封底、目次、版权页、片断（通常为图书起始部分）、索引等。

Google与Amazon书内搜索比较

不知为什么，Google没有象Google Scholar那样，单为Google Print设一个检索页面，弄得大家要检索Google Print收录的图书时，只能在Google网页搜索时，使用“book”一词进行搜索（目前限英文界面）。而且，检索结果还只限3个。

SearchEngineWatch新闻编辑Gary Price最近写了一篇破解之文“Going Under Cover with Book Search Tools”，传授了二种任意检索Google Print中图书的方法。

方法一（例子改为我自己的了）：
1、在Google搜索框输入检索词（注意“界面语言”选英文），如：book “information retrieval”
2、图书检索结果标记为：Book results for “information retrieval”。任意点击3种图书中的一种，如Visual Information Retrieval
3、在窗体下部有一个搜索框，边上有一个“Search all books”按钮，可以实现在所以Google Print图书中搜索。

方法二比较简单，只是需要记一下。先在浏览器地址栏输入：
http://print.google.com/print?q=
再在等号后加上检索词，同样如”information retrieval”，检索结果相同。

（2005-5-28更新：
Google Print首页已更新，设置了检索页面，所以Gary Price的“方法一”已无用武之地；“方法二”仍然有效，虽然直接使用没有什么意义，但可用于Google的“工具栏搜索”Google Deskbar。
原来Google Print首页内容现在放在About Google Print。）

（2006-1-23更新：
2005年晚些时候，Google Print已改称Google图书搜索：http://books.google.com/）

编目时偶而也用Google Print看图书的目次。这回花时间用了一下左栏的书内搜索（Search within this book），同亚马逊的书内搜索（Search Inside!）作一对比：

1、图书基本信息：
    亚马逊提供封面、目次、版权页、片段、索引、封底。“片段”是其可公共访问的页面，可前后翻页。
    Google提供封面、版权页、目次、索引。可由原文页前后翻页。
    二者相比差别不大。

2、搜索功能：
Google可以用引号搜索词组，搜索结果比亚马逊更准确。

3、检索结果：
亚马逊检索结果一览每项三行左右，有一定的可读性。
Google检索结果一览每项二行，且行宽小于亚马逊，基本不可读。

4、原文显示：
对一般检索者，亚马逊只显示可公共访问的“片段”页面。只有注册用户才能由检索结果点击页码看原文，即使该页属于其公开的“片断”。
Google可直接由检索结果点击相应页码看原文：
1) 不是每页都可看，比如对于Encyclopedia of Library and Information Science，第435页即显示[Sorry, this page&aposs content is restricted.]。
2) 一本书肯定不能从头看到尾，但没有地方显示究竟可以看几页。据Gary Price说，可看页数由出版商决定(Publisher Program)。
3) 那些由Google图书馆计划(Library Project)数字化的图书，如果受版权保护，则只能看书目信息，即Book Info View Only。Gary Price说在美国公共领域是1923年前，如果在美国以外，Google会认定在1900年前！这么古老的内容，如果真有价值，相信谷腾堡计划(Project Gutenberg)中也会有的了，或许“善本”例外（外行话不足为凭）。

5、原文保存与打印：
亚马逊：不可选择保存原文图像，打印时原文位置留空，但可通过保存网页方式保存原文（独立的jpeg文件；2005/5/14更新：仅限显示的第一页）。
Google：不可选择保存原文图像，打印时原文位置留空，原文无法保存（保存网页后原文每次均需联网下载），唯一的保存原文方法就是拷屏(PrintScreen)了。

当日更新（21:30)：

刚看了蒙大拿州立大学参考馆员Greg R. Notess在Online (vol.29 no.3 May/June 2005)上发表的专栏文章：Searching Books Between the Covers。该文讨论的也是书内搜索问题。文中有历史描述，有些有趣的Google、Amazon和A9搜索对比，还有书内搜索在参考服务中应用的实例。
如作者所言，书内搜索仍在不断变化。所以他的文章、Gary Price的文章以及上文，或许很快就过时了。

广告网站――Blingo搜索彩票

平时上的网站不多，但凡访问广告网站多是误入。这些网站大多不但吸引不了人，反而让人心生厌恶――广告比自己关心的内容更显著、且常常妨碍关注内容的显示；或者搜索到后点击链接，才发现根本就没有自己想要的内容。网站的经营者根本就没想过以如此拙劣的手法，何以吸引人不断光顾，从而扩大广告的影响，并进而吸引更多的广告客户？

去年11月发布的”搜索彩票”Blingo Search Sweepstakes（http://www.blingo.com/），倒是另辟蹊径――以搜索中奖的方式吸引上网者利用该网站进行搜索。搜索有奖，就像中彩！不但自己可能中彩，而且一旦自己推荐的朋友中奖，自己也能得到奖品。3月份首奖是苹果的iPod。
我所知不多，但猜想访问中奖类的网站大概不是新鲜点子。然而如果纯为中奖而访问，有多少赞助商来做广告就值得怀疑了。Blingo吸引人的地方，是利用Google进行搜索，搜索结果界面一如Google般简洁，只是赞助商链接放在搜索结果最前面，而不似Google放在右侧。

    试查information，在Blingo中的搜索结果，数量比Google检索结果要少，约为五分之一。首页内容相同，顺序小异。对搜索者，这样的结果已足够使用了。
    对美国人而言，反正平时也要用Google的，就把www.google.com改成www.blingo.com，同时增加一次中彩机会，何乐而不为？（此网站仅美国人可参与中彩）
    值得玩味的是网站的规则，它希望你经常用该网站检索，但如果搜索过多（而有作假嫌疑），反而会丧失参与资格，并且点击赞助商链接也不能增加中彩机会。网站以此保证它向赞助商提供的是有效的而非欺骗性的访问。

注：原发于05-3-31，不知何故被删。