Google图书搜索的电子书网址

    越来越多的图书被数字化并上网,如果能够在OPAC中揭示出这些电子书的存在,无疑将方便读者利用。要在OPAC中提供链接,首先需要解决的问题是得到这些电子书的网址。Karen Coyle曾设想建立一个转换数据库("switching" database),能够通过LCCN、ISBN、OCLC#及少量书目元数据,获取数字图书的URL(包括Google图书搜索、开放内容联盟OCA及古登堡计划)。除非这些数字化项目本身支持,否则这个大工程可是很棘手的。

    Google图书搜索(GBS)虽则官司缠身,可与之合作的图书馆却在陆续增加,数字化的图书也在不断上网。目前能提供全文阅读的比例不高(美国以外这个比例更低),但能够阅读部分、或者目次也有一定需求,因此增加GBS的链接,对图书馆有了一定的吸引力。

    在近年OPAC的改进过程中,使用亚马逊的信息比较多。除了内容丰富外,技术上的原因主要是亚马逊在有ISBN的情况下,直接用ISBN号作为其标识,可以很方便地构成图书各方面信息的URL,提供链接;另一个原因是亚马逊提供API,可以把封面、书评等内容直接嵌入OPAC的显示页面。而这两点,对GBS似乎都不存在。

    查GBS就会发现,它的图书标识是一长串似乎随机生成的代码,如“5EccAAAACAAJ”,据说是根据数字化时图书的条码号生成的。澳大利亚国家图书馆的LibraryLabs是很少几个链接GBS的OPAC,它规避了特定电子书的URL问题,通过OPAC检索时所用词串检索GBS得到一批图书封面及链接。而一般OPAC需要链接到某一特定版本,没有其标识号无法实现。

    其实GBS不只有一个ID,ISBN、OCLC#都可能是ID (vid, varied id?),这种多重ID的形式,其实对提供链接是一个福音。如前述ID的这本书,是庄子逸、许文霞所译兰开斯特的《通向无纸情报系统》,在GBS中查得到的URL是http://books.google.com/books?id=5EccAAAACAAJ,而用ISBN号的URL是:http://books.google.com/books?vid=7502305424

    美国东密歇根大学在去年十一月就通过OCLC#在OPAC中动态提供GBS的链接(根据是否能获取全文,给出不同的显示文字)。根据用此法得到的数据,仅有约5%有全文,约10%可以看片断。[update 2007-9-28] Wake Forest 大学 Professional Center Library 也采用东密歇根大学的方法提供GBS链接,一个使用OCLC#的实例:http://books.google.com/books?vid=OCLC49284042

    问题在于,无论是ISBN还是OCLC#,都不能保证查到实际上存在的GBS电子书。比如:http://books.google.com/books?id=CV0lHa0j2YAC,该书的ISBN为0802142818,但用http://books.google.com/books?vid=0802142818则没有结果 [2007-9-28更正:用http://books.google.com/books?vid=ISBN0802142818可以检索到。也就是说,使用ISBN时,加上ISBN标识检出可能性较高]。Karen举了另一个例子:http://books.google.com/books?id=MgSoZJLtmGQC。此书在哈佛大学书目中的OCLC#是16730575,但用此号构造出的URL并不存在(Not Found)。关于OCLC#,据说在WorldCat中对数字化图书都会另外给一个OCLC#,如此则原来纸本的OCLC#在这种情况下有用性大大降低。对于大量早期没有ISBN的图书,就只有利用GBS的ID一条途径了。

    LibraryThing的Tim Spalding要获取GBS的ID。因为之前AADL的John Blyberg曾试图用机器人获取,结果被Google封杀,所以Tim想如之前LT做合并同一版本那样,再次依靠群众的力量。他做了一个名为"Google Book Search Search"的小书签(bookmarklet),让LT用户及其他人在访问GBS时使用,以获取GBS的图书ID。由于是不同IP的人在分散访问GBS,或许可以避免被Google封杀——关于此点,Tim没有把握,毕竟是同用一个程序在获取数据。他在早上2点发布GBSS小书签,到晚上10点多发贴时,已有超过300个LT用户装上并开始使用了。
    Tim承诺所有获取的数据将会共享,供图书馆强化自己的OPAC。并设想(有了足够的数据后)在LibraryThing for Libraries中作为免费的部分提供。目前LT用户提供的数据可以在该网站的“Google Book Search Search Data”看到,全部数据的XML文件也可以下载

via: NGC4LIB
Adding links to books in Google Book Search within the OPAC (2007-9-14)
Announcing Google Book Search, um, Search (2007-9-17)

参见:
LibraryThing Blog: Google Book Search … on LibraryThing (2007-9-17)
http://www.librarything.com/blog/2007/09/google-book-search-on-librarything.php

Google图书搜索成为世界OPAC? (2006-8-25)
/posts/20060825164528.html
Google的《莎士比亚戏剧全集》 (2006-06-22)
/posts/20060622194146.html
Google合作馆如何处理他们的数字化图书 (2007-04-04)
/posts/20070405050354.html

在OPAC中嵌入LibraryThing提供的相关链接 (2007-04-10)
/posts/20070410205431.html
把图书馆2.0带入你的目录:LibraryThing for Libraries有了第一个用户 (2007-05-15)
/posts/20070515214513.html
thingISBN――用户视角的FRBR化成果 (2006-07-02)
/posts/20060702212245.html

在图书网站查图书馆目录――也来介绍LibraryLookup项目

    Jackie像几位一样不得已搬了家,刚到新家就摆出了好东西让大家共享。“轻巧的图书馆Greasemonkey应用”集中介绍了Jon Udell的LibraryLookup项目的Greasemonkey应用。
    Greasemonkey是一个Firefox浏览器扩展,它有通过编写脚本来改变被访问网页的功能。安装后,就可以在Firefox浏览器中安装各种专门的“用户脚本”(Javascript代码)。LibraryLookup项目的前述Greasemonkey应用,就是一种专门的用户脚本。安装完成后,用Firefox浏览器访问亚马逊时,在图书信息页面,会自动插入相应图书馆的馆藏信息。

    这么好的功能,可惜我们不是那几个Geek所在(或所帮助)图书馆的用户,所以无福享用。不过我们可以退而求其次,无需安装Greasemonkey扩展,无需使用Firefox浏览器,经过一番定制后,在访问图书网站时,只需多一个点击链接动作,照样可以享受LibraryLookup带来的便利。
    LibraryLookup原来是一个bookmarklet,它也是一段小程序,可以像书签一样加入你IE、Firefox或其它浏览器的收藏夹,在访问亚马逊(或其它有图书信息的网站)的图书信息页面时,点击该链接,便可即时检索相应图书馆的联机目录(OPAC),得到图书馆馆藏信息。它不改变原来的网页,而是弹出一个检索结果窗口。

    在LibraryLookup项目主页,有一个bookmarklet生成器(bookmarklet generator),可以自己定制想要检索的图书馆目录。需提供的信息是(以清华大学图书馆OPAC为例):

  • Vendor:所用的图书馆集成系统(innovative)。因为是美国人设计的,所以都是些外国系统。如果非图书馆员,不知道图书馆采用的是什么系统,可以点击系统名称后的实例(example),看看自家图书馆目录看上去跟哪个一样(弄错了后面还有机会更正)。
  • Base URL:图书馆目录的基本URL(http://innopac.lib.tsinghua.edu.cn)。分析图书馆目录检索结果的URL,取OPAC的URL。
  • Library Name:图书馆名称(Tsinghua Library)。详简随意,是bookmarklet显示的名称。

完成上述三个部分后,按“Build your own LibraryLookup bookmarklet”按钮。

    换窗口后,首行让你先测试一下你所提供的信息是否能够获取信息。由于LibraryLookup通过识别页面的ISBN实施OPAC检索,所以如果没问题,你将会看到图书馆目录的ISBN检索页面;当然如果图书馆收藏有该ISBN的图书,则直接显示该图书信息。如果有问题,后退到前一页面修改。
    完成后,拖动图书馆名称链接(本例中为“Tsinghua Library”)到浏览器工具条中的“链接”或“收藏夹”。这时可能出现一个“安全警报”窗口,选“是”继续,即完成。
    在网页的下面有Bookmarklet小程序的全文,反正我是一窍不通。不过如果熟悉Javascript,估计这三行(主要是第一、二行)也很容易破译。改写一下,即使是用于国内图书馆集成系统,应该也是没问题的。

    做完之后,就可以找网站试用一下,看看效果了。比如亚马逊、比如Open WorldCat、比如douban(英文版),注意必须是单种图书信息页面。出现结果很爽,比上清华馆网站查速度不知快多少。

    同样遗憾的是,中文图书网站不顶用,比如当当、卓越、以及中文豆瓣。由于英文豆瓣可以使用,所以我推测可能是字符集问题。
    如有Javascript行家解决中文问题,再增加更多国内图书馆集成系统,那就可以造福广大的中文用户了。

    当然,如果能够做出Greasemonkey版的LibraryLookup生成器,那就更好了。那些Javascript代码在Jackie的链接中找,Jon本人的代码在此。Jon这么久都没有推出Greasemonkey版的生成器,大概不那么好做。

资料: