用网上信息解惑――Google Print编目应用实例

    编目时对文献本身的信息会产生一些疑问,诸如某个信息是丛编名还是一般的介绍性文字,等等。不动脑筋的方法是问人,只是被问者也不见得知道。如果被问者随口一答,甚至可以质疑,其答复又何以见得是正确的呢?
    我是属于懒得问人的。所以遇到这方面的疑问,采用的方法是“查”,或者说“问”各种OPAC,看看网上有没有类似的图书,看看类似图书是如何著录的。

    有些翻译图书的问题,不是查查OPAC就可以解决的,需要原书来解惑。现在可以通过Google Print使用网上图书。这是我遇到的一个使用Google Print的实例:

果壳里的60年 = Sixty years in a nutshell / (英)S?W?霍金等著 ; 李泳译. — 湖南科学技术出版社, 2005

    这是一本文集,在各种OPAC中查并列题名,并无题名为“Sixty years in a nutshell”的原版图书。看图书版权页信息:

Martin Rees, “Our complex cosmos and its future”
James Hartle, “Theories of everything and Hawking&aposs wave function of the universe”
Roger Penrose, “The problem of spacetime singularities: implications for quantum gravity?”
Kip Thorne, “Warping spacetime”
Stephen Hawking, “Sixty years in a nutshell” in Gibbons, Shelard & Rankin, (eds) The Future of Theoretical Physics and Cosmology. (c) 2003 Cambridge University Press

似乎书中各文出自The Future of Theoretical Physics and Cosmology一书。

    用“Sixty years in a nutshell”查Google Print,查到如下信息

The Future of Theoretical Physics and Cosmology : elebrating Stephen Hawking&aposs 60th Birthday by G W Gibbons, E P S Shellard, S J Rankin – Science – 2003 – 906 pages
Page 105 – 6 Sixty years in a nutshell Stephen Hawking Centre for Mat … Sciences, University of Cambridge 6.1 Introduction It was nearly 59.97 years in a nutshell. …

    显示“Sixty years in a nutshell”确为霍金在“The Future of Theoretical Physics and Cosmology”中所写的一篇文章。点击有霍金头像的图书封面,再点击左栏“Table of Contents”(目次首页),可看到翻译书中各文均出自该书之“Part 1: Popular symposium”。

    故可将原书名做到5XX中。

    在知道书名的情况下,理论上也可通过A9(http://a9.com)或亚马逊(http://www.amazon.com)看有关信息,只要该图书有书内搜索(Search Inside)或书内浏览(Look Inside)。但本例中的书在亚马逊虽有书内搜索,也有目次页链接,但却未显示目次首页(显示了后续页)。
    自然也有反过来的情况:亚马逊有某图书,而Google Print没有。如果只有目次中的篇名,似乎就很难查了――亚马逊的检索功能与Google不在同一档次上。

 

亚马逊“书内搜索”扩展功能

    平时上亚马逊,只注意到那些在国内购书网站上常见的推荐相关图书的信息。那天看到OCLC首席科学家Lorcan Dempsey绕有兴趣地使用亚马逊的数据挖掘功能(Amazon: making data work),并预言这些数据可作进一步研究。于是再去看亚马逊的特色,前几天已经写了“Google与Amazon书内搜索比较”,今天再看看亚马逊由图书全文扫描所获数据延伸出来的其他功能。
    亚马逊部分图书(标记为Search Inside!)有全文电子版作为数据源,除“书内搜索”(Search Inside This Book)、“浏览样本页”(Browse Sample Pages)外,还提供了一些有趣或者精彩的功能,在Inside This Book栏目下有:

Statistically Improbable Phrases (SIPs)
    特色词组。亚马逊首创术语,由词频统计得出,某词组在该书中出现次数在所有“书内搜索”图书中相对较多。可由这些SIPs了解该书特色,前述Dempsey文章即围绕此一功能。
    如Cataloging and Classification for Library Technicians一书第一个SIP即nonfiling characters,可见该书对MARC格式解读之细致。
    还可点击SIPs了解采用该词的其他图书及在书中出现的频率。

Books on Related Topics
    相关论题图书。这里的“相关”判断利用的是两书相同SIPs的数量。

Concordance
    词频索引。依字顺排列最高频的100个词,由字体大小显示词频高低。比如,在亚马逊的几本编目图书中,以Manheimer&aposs Cataloging and Classification: Revised and Expanded最注重“规则”rule。

Text Stats
    文本统计,包括可读性、复杂性等。
    外国人有很多创新,而很多创新又是在充分利用前人已经完成的研究的基础上的。亚马逊的“可读性”就采用了几种早已有之的指数:

1、Fog Index
    阅读与理解一段文本所需的正规教育年限。
    以高中毕业12年(K-12)计算,一般专业书多在12以上,即要求大学水平。也有16以上的,那是硕士水平了。但是Library Research Models: A Guide to Classification, Cataloging, and Computers一书,题名虽为Guide,分值居然高达21,非博士不能读?
2、Flesch Index
    开发于1940年的一个指数,最高值100,分值越高越易读,0-30适合大学水平。
    想不到1940年就已经有文本分析可读性的量化研究。
3、Flesch-Kincaid Index
    Flesch Index的更改进版,也与教育年限相对应。
    对比了一些书的可读性指数,似乎lesch-Kincaid指数值都比Fox指数值低,如Library Research Models一书为18。

    “复杂性”中有一个指数是每个句子包含的词数,Library Research Models一书的此值为31.1,确实是个十分恐怖的数字。估计可读性计算也与此值有关。
    上面这些内容或许太严肃了些。亚马逊在最后提供了二个娱乐统计数据
每1美元可买多少个词(买家看看值不值)
每1盎司有多少个词(大概因为邮寄按重量计费,所以亚马逊数据库中才会有图书重量数据)

    Dempsey感兴趣的The Rise of the Network Society一书还有引文功能(Citations),包括引用与被引。该书引用了199本书,又被230本书引用。引用来源图书似有重复,且由于数据原因,仅限亚马逊“书内搜索”图书。
    “引文”也是亚马逊书内搜索中值得进一步关注的功能。

另:亚马逊有一些标记为“Look Inside”的图书,如“The Intellectual Foundation of Information Organization”,没有“书内搜索”及扩展功能,只有“浏览样本页”功能:封面、封底、目次、版权页、片断(通常为图书起始部分)、索引等。

 

Google与Amazon书内搜索比较

    不知为什么,Google没有象Google Scholar那样,单为Google Print设一个检索页面,弄得大家要检索Google Print收录的图书时,只能在Google网页搜索时,使用“book”一词进行搜索(目前限英文界面)。而且,检索结果还只限3个。

    SearchEngineWatch新闻编辑Gary Price最近写了一篇破解之文“Going Under Cover with Book Search Tools”,传授了二种任意检索Google Print中图书的方法。

    方法一(例子改为我自己的了):
1、在Google搜索框输入检索词(注意“界面语言”选英文),如:book “information retrieval”
2、图书检索结果标记为:Book results for “information retrieval”。任意点击3种图书中的一种,如Visual Information Retrieval
3、在窗体下部有一个搜索框,边上有一个“Search all books”按钮,可以实现在所以Google Print图书中搜索。

    方法二比较简单,只是需要记一下。先在浏览器地址栏输入:
http://print.google.com/print?q=
再在等号后加上检索词,同样如”information retrieval”,检索结果相同。

2005-5-28更新
    Google Print首页已更新,设置了检索页面,所以Gary Price的“方法一”已无用武之地;“方法二”仍然有效,虽然直接使用没有什么意义,但可用于Google的“工具栏搜索”Google Deskbar
    原来Google Print首页内容现在放在About Google Print。

2006-1-23更新
    2005年晚些时候,Google Print已改称Google图书搜索:http://books.google.com/

    编目时偶而也用Google Print看图书的目次。这回花时间用了一下左栏的书内搜索(Search within this book),同亚马逊的书内搜索(Search Inside!)作一对比:

1、图书基本信息:
    亚马逊提供封面、目次、版权页、片段、索引、封底。“片段”是其可公共访问的页面,可前后翻页。
    Google提供封面、版权页、目次、索引。可由原文页前后翻页。
    二者相比差别不大。

2、搜索功能:
    Google可以用引号搜索词组,搜索结果比亚马逊更准确。

3、检索结果:
    亚马逊检索结果一览每项三行左右,有一定的可读性。
    Google检索结果一览每项二行,且行宽小于亚马逊,基本不可读。

4、原文显示:
    对一般检索者,亚马逊只显示可公共访问的“片段”页面。只有注册用户才能由检索结果点击页码看原文,即使该页属于其公开的“片断”。
    Google可直接由检索结果点击相应页码看原文:
1) 不是每页都可看,比如对于Encyclopedia of Library and Information Science,第435页即显示[Sorry, this page&aposs content is restricted.]。
2) 一本书肯定不能从头看到尾,但没有地方显示究竟可以看几页。据Gary Price说,可看页数由出版商决定(Publisher Program)。
3) 那些由Google图书馆计划(Library Project)数字化的图书,如果受版权保护,则只能看书目信息,即Book Info View Only。Gary Price说在美国公共领域是1923年前,如果在美国以外,Google会认定在1900年前!这么古老的内容,如果真有价值,相信谷腾堡计划(Project Gutenberg)中也会有的了,或许“善本”例外(外行话不足为凭)。

5、原文保存与打印:
    亚马逊:不可选择保存原文图像,打印时原文位置留空,但可通过保存网页方式保存原文(独立的jpeg文件;2005/5/14更新:仅限显示的第一页)。
    Google:不可选择保存原文图像,打印时原文位置留空,原文无法保存(保存网页后原文每次均需联网下载),唯一的保存原文方法就是拷屏(PrintScreen)了。

当日更新(21:30):

    刚看了蒙大拿州立大学参考馆员Greg R. Notess在Online (vol.29 no.3 May/June 2005)上发表的专栏文章:Searching Books Between the Covers。该文讨论的也是书内搜索问题。文中有历史描述,有些有趣的Google、Amazon和A9搜索对比,还有书内搜索在参考服务中应用的实例。
    如作者所言,书内搜索仍在不断变化。所以他的文章、Gary Price的文章以及上文,或许很快就过时了。