平时上亚马逊,只注意到那些在国内购书网站上常见的推荐相关图书的信息。那天看到OCLC首席科学家Lorcan Dempsey绕有兴趣地使用亚马逊的数据挖掘功能(Amazon: making data work),并预言这些数据可作进一步研究。于是再去看亚马逊的特色,前几天已经写了“Google与Amazon书内搜索比较”,今天再看看亚马逊由图书全文扫描所获数据延伸出来的其他功能。
亚马逊部分图书(标记为Search Inside!)有全文电子版作为数据源,除“书内搜索”(Search Inside This Book)、“浏览样本页”(Browse Sample Pages)外,还提供了一些有趣或者精彩的功能,在Inside This Book栏目下有:
Statistically Improbable Phrases (SIPs)
特色词组。亚马逊首创术语,由词频统计得出,某词组在该书中出现次数在所有“书内搜索”图书中相对较多。可由这些SIPs了解该书特色,前述Dempsey文章即围绕此一功能。
如Cataloging and Classification for Library Technicians一书第一个SIP即nonfiling characters,可见该书对MARC格式解读之细致。
还可点击SIPs了解采用该词的其他图书及在书中出现的频率。
Books on Related Topics
相关论题图书。这里的“相关”判断利用的是两书相同SIPs的数量。
Concordance
词频索引。依字顺排列最高频的100个词,由字体大小显示词频高低。比如,在亚马逊的几本编目图书中,以Manheimer&aposs Cataloging and Classification: Revised and Expanded最注重“规则”rule。
Text Stats
文本统计,包括可读性、复杂性等。
外国人有很多创新,而很多创新又是在充分利用前人已经完成的研究的基础上的。亚马逊的“可读性”就采用了几种早已有之的指数:
1、Fog Index
阅读与理解一段文本所需的正规教育年限。
以高中毕业12年(K-12)计算,一般专业书多在12以上,即要求大学水平。也有16以上的,那是硕士水平了。但是Library Research Models: A Guide to Classification, Cataloging, and Computers一书,题名虽为Guide,分值居然高达21,非博士不能读?
2、Flesch Index
开发于1940年的一个指数,最高值100,分值越高越易读,0-30适合大学水平。
想不到1940年就已经有文本分析可读性的量化研究。
3、Flesch-Kincaid Index
Flesch Index的更改进版,也与教育年限相对应。
对比了一些书的可读性指数,似乎lesch-Kincaid指数值都比Fox指数值低,如Library Research Models一书为18。“复杂性”中有一个指数是每个句子包含的词数,Library Research Models一书的此值为31.1,确实是个十分恐怖的数字。估计可读性计算也与此值有关。
上面这些内容或许太严肃了些。亚马逊在最后提供了二个娱乐统计数据:
每1美元可买多少个词(买家看看值不值)
每1盎司有多少个词(大概因为邮寄按重量计费,所以亚马逊数据库中才会有图书重量数据)
Dempsey感兴趣的The Rise of the Network Society一书还有引文功能(Citations),包括引用与被引。该书引用了199本书,又被230本书引用。引用来源图书似有重复,且由于数据原因,仅限亚马逊“书内搜索”图书。
“引文”也是亚马逊书内搜索中值得进一步关注的功能。
另:亚马逊有一些标记为“Look Inside”的图书,如“The Intellectual Foundation of Information Organization”,没有“书内搜索”及扩展功能,只有“浏览样本页”功能:封面、封底、目次、版权页、片断(通常为图书起始部分)、索引等。