用Google图书搜索API增强OPAC

    2007年中的时候,想要在OPAC中像链接Amazon那样链接Google图书(因为部分是可以看全文的),还是件挺令图书馆人伤脑筋的事(参见“Google图书搜索的电子书网址”)。但前几天Google发布了新的图书搜索API,开始转而鼓励图书馆及其他图书网站在图书页面显示Google图书搜索的封面小图片、全文的可获得状态,并链接到图书搜索的结果。

    Google图书搜索提供静态与动态两种链接方式:

Viewability API – Dynamic Links (动态链接:全文可看性API)
· 可通过ISBN、LCCN及OCLC号链接到Google图书搜索
· 获知Google图书搜索是否有特定图书,及其全文可看性
· 生成图书封面小图片链接
· 生成图书信息页链接
· 生成图书预览链接

所谓Viewability分为四种 [因地域而异,有些书在美国可看,到加拿大就不可看了]:
Full View:全文可看
Limited Preview:部分可看(仅部分页面可看)
Snippet View:片断可看(可作书内检索search within this book,每页仅显示部分内容)
Metadata View:无全文(仅有图书信息“关于此书”)
(但从API返回的preview状态看,只有3种:noview, partial, full。似乎中间两种合并显示了,其实标出是否可作书内检索对用户还是很有意义的。)

Dynamic Links – Getting Started最后附有三段代码实例:
   *  Example: Basic linking to books
    * Example: Using a callback
    * Example: An AJAX Example

Static Links to Google Book Search (静态链接)
·通过ISBN、LCCN及OCLC号链接到图书的有关页面(显然不能像动态链接那样保证链接的有效性)
链接语法(ISBN):
http://books.google.com/books?vid=ISBNXXXXXXXXXX&printsec=[内容]
[内容]代表
空:图书首页
frontcover:封面
titlepage:题名页
copyright:版权页:
toc:目次页:
index:索引
backcover:封底

Static Links to GBS Content的实例没有介绍LCCN及OCLC号的链接方法,去年是不加前缀直接引用的,即:http://books.google.com/books?vid=XXXXXXXX&printsec=[内容]。但从动态链接实例看,分别用了LCCN和OCLC作前缀。

    在宣传博文中列出了一串共14个已经链接到Google图书搜索的公共图书馆、大学图书馆,以及图书网站LibraryThing、Open Library和Scriblio(开源软件,原WPOpac)。特别说明有几个大学是通过Ex Libris的Primo或SFX实现的。
    正好看到Library Technology Guides上的新闻:Ex Libris在其产品中集成了到Google图书的直接链接。据称Primo发现与传递解决方案(discovery and delivery solution),SFX内容敏感链接解析器(context-sensitive link resolver),以及Aleph和Voyager集成图书馆系统均加上了此功能。

    LibraryThing的Tim曾费尽心思做小插件以期利用群众的力量获取Google图书搜索的链接信息,这回很兴奋,因为LibraryThing还被Google官方举为首批应用者。在“来自Google的免费封面”中他提供了二段JS代码,一段是通过ISBN只抓取图书封面但不提供链接,一段是只在有全文时提供链接──应该说都很实用。同时,也没忘为他的OPAC增强服务LibraryThing for Libraries再做一回广告。

参见:
Google图书搜索的电子书网址 (2007-09-27)

Google Book Search Book Viewability API
Offical Google Blog:Book info where you need it, when you need it (2008-3-13)
Inside Google Book Search:Preview books anywhere with the new Google Book Search API (2008-3-13)

Library Technology Guides:Ex Libris integrates direct links to Google About this Book pages in its products (March 13, 2008)

The LibraryThing Blog: Google Books in LibraryThing (March 13, 2008)
Thing-ology (LibraryThing’s ideas blog):Free covers for your library, from Google (March 15, 2008)

Google图书搜索的电子书网址

    越来越多的图书被数字化并上网,如果能够在OPAC中揭示出这些电子书的存在,无疑将方便读者利用。要在OPAC中提供链接,首先需要解决的问题是得到这些电子书的网址。Karen Coyle曾设想建立一个转换数据库("switching" database),能够通过LCCN、ISBN、OCLC#及少量书目元数据,获取数字图书的URL(包括Google图书搜索、开放内容联盟OCA及古登堡计划)。除非这些数字化项目本身支持,否则这个大工程可是很棘手的。

    Google图书搜索(GBS)虽则官司缠身,可与之合作的图书馆却在陆续增加,数字化的图书也在不断上网。目前能提供全文阅读的比例不高(美国以外这个比例更低),但能够阅读部分、或者目次也有一定需求,因此增加GBS的链接,对图书馆有了一定的吸引力。

    在近年OPAC的改进过程中,使用亚马逊的信息比较多。除了内容丰富外,技术上的原因主要是亚马逊在有ISBN的情况下,直接用ISBN号作为其标识,可以很方便地构成图书各方面信息的URL,提供链接;另一个原因是亚马逊提供API,可以把封面、书评等内容直接嵌入OPAC的显示页面。而这两点,对GBS似乎都不存在。

    查GBS就会发现,它的图书标识是一长串似乎随机生成的代码,如“5EccAAAACAAJ”,据说是根据数字化时图书的条码号生成的。澳大利亚国家图书馆的LibraryLabs是很少几个链接GBS的OPAC,它规避了特定电子书的URL问题,通过OPAC检索时所用词串检索GBS得到一批图书封面及链接。而一般OPAC需要链接到某一特定版本,没有其标识号无法实现。

    其实GBS不只有一个ID,ISBN、OCLC#都可能是ID (vid, varied id?),这种多重ID的形式,其实对提供链接是一个福音。如前述ID的这本书,是庄子逸、许文霞所译兰开斯特的《通向无纸情报系统》,在GBS中查得到的URL是http://books.google.com/books?id=5EccAAAACAAJ,而用ISBN号的URL是:http://books.google.com/books?vid=7502305424

    美国东密歇根大学在去年十一月就通过OCLC#在OPAC中动态提供GBS的链接(根据是否能获取全文,给出不同的显示文字)。根据用此法得到的数据,仅有约5%有全文,约10%可以看片断。[update 2007-9-28] Wake Forest 大学 Professional Center Library 也采用东密歇根大学的方法提供GBS链接,一个使用OCLC#的实例:http://books.google.com/books?vid=OCLC49284042

    问题在于,无论是ISBN还是OCLC#,都不能保证查到实际上存在的GBS电子书。比如:http://books.google.com/books?id=CV0lHa0j2YAC,该书的ISBN为0802142818,但用http://books.google.com/books?vid=0802142818则没有结果 [2007-9-28更正:用http://books.google.com/books?vid=ISBN0802142818可以检索到。也就是说,使用ISBN时,加上ISBN标识检出可能性较高]。Karen举了另一个例子:http://books.google.com/books?id=MgSoZJLtmGQC。此书在哈佛大学书目中的OCLC#是16730575,但用此号构造出的URL并不存在(Not Found)。关于OCLC#,据说在WorldCat中对数字化图书都会另外给一个OCLC#,如此则原来纸本的OCLC#在这种情况下有用性大大降低。对于大量早期没有ISBN的图书,就只有利用GBS的ID一条途径了。

    LibraryThing的Tim Spalding要获取GBS的ID。因为之前AADL的John Blyberg曾试图用机器人获取,结果被Google封杀,所以Tim想如之前LT做合并同一版本那样,再次依靠群众的力量。他做了一个名为"Google Book Search Search"的小书签(bookmarklet),让LT用户及其他人在访问GBS时使用,以获取GBS的图书ID。由于是不同IP的人在分散访问GBS,或许可以避免被Google封杀——关于此点,Tim没有把握,毕竟是同用一个程序在获取数据。他在早上2点发布GBSS小书签,到晚上10点多发贴时,已有超过300个LT用户装上并开始使用了。
    Tim承诺所有获取的数据将会共享,供图书馆强化自己的OPAC。并设想(有了足够的数据后)在LibraryThing for Libraries中作为免费的部分提供。目前LT用户提供的数据可以在该网站的“Google Book Search Search Data”看到,全部数据的XML文件也可以下载

via: NGC4LIB
Adding links to books in Google Book Search within the OPAC (2007-9-14)
Announcing Google Book Search, um, Search (2007-9-17)

参见:
LibraryThing Blog: Google Book Search … on LibraryThing (2007-9-17)
http://www.librarything.com/blog/2007/09/google-book-search-on-librarything.php

Google图书搜索成为世界OPAC? (2006-8-25)
/posts/2006/0825/826
Google的《莎士比亚戏剧全集》 (2006-06-22)
/posts/2006/0622/824
Google合作馆如何处理他们的数字化图书 (2007-04-04)
/posts/2007/0404/482

在OPAC中嵌入LibraryThing提供的相关链接 (2007-04-10)
/posts/2007/0410/480
把图书馆2.0带入你的目录:LibraryThing for Libraries有了第一个用户 (2007-05-15)
/posts/2007/0515/466
thingISBN――用户视角的FRBR化成果 (2006-07-02)
/posts/2006/0702/854

你们馆参加Google学术搜索“图书馆链接计划”吗?

    今天看到Google馆员中心博客报道,始于2005年5月的Google学术搜索的“图书馆链接计划”,至今参加馆已经超过1200家(Google Scholar Library Links Hits 1,200 Participating Libraries)。
    加入图书馆链接计划后,图书馆读者在使用Google学术搜索时,如果查到的文献在本馆有馆藏,就会出现访问馆藏的链接(根据IP限定,或者通过“使用偏好”设定)。如果链接的是订购的电子资源,直接点击就可以看原文;如果是印刷文献,点击后就可以进入馆藏目录系统(看馆藏状态等)。

    大陆最早参加的应当是清华大学图书馆,2006年初查得的还有国家图书馆、北京师范大学和北京理工大学。国家科学图书馆于2006年4、5月间加入。香港已由2006年初的2家增至目前的4家。台湾现有5家,包括台湾地区联合目录NBINet。由于没有参加馆一览表,具体有哪些图书馆加入,难以全面了解。

    “图书馆链接计划”是免费的。根据使用说明,参与馆有两个条件,一是有链接服务器,二是须将电子馆藏告知Google。
    去年评论国家科学图书馆加入Google图书馆链接计划一事,有“国图人”留言,说是国家图书馆与国家科学图书馆都只是向Google开放链接,而并未提供馆藏,因为这“是一件需要非常慎重处理的事,一般图书馆恐怕都会三思”。或许说明二家图书馆提供的都是“脱机馆藏资料”,即图书馆目录,而非电子资源的具体订购信息。Google需要电子馆藏的目的是定向到具体的原文,把“脱机馆藏”给Google是没有意义的。

    就Google学术搜索而言,用户使用主要是检索学术论文,而不是图书。查图书一般会选择Google图书搜索。所以图书馆以订购电子资源(也包括电子图书)加入图书馆链接计划,比馆藏纸本书目更有意义。订购电子资源并非本馆独特资源,提供给Google大约相对而言也无需“三思”。更重要的是,读者点击后看到的是原文,而不是一个OPAC检索结果,用户体验会比较好,更有实际意义。而“脱机馆藏”或馆藏纸本书目,应当只是个副产品,因为一般链接服务器总会将本馆OPAC配置在内的。

    不知道已经参加的图书馆馆有没有统计数据,反映通过Google学术搜索链接到原文的情况,在原文浏览或下载中占多少比例。
    如果没有这些信息,而图书馆有参与意向,或许也可以先做个读者调查,看有多少读者通过Google学术搜索寻找资料,是否希望经此途径直接链接到电子全文,等等。
    虽然参与计划是免费的,但图书馆的相关部门还是有很多工作要做的,诸如配置链接解析器,提供校园网IP地址范围,校园网外访问处理,提供完整准确的电子馆藏等等。从这个角度,是否要加入这个计划,也是要慎重对待的。

附:
在Google学术搜索的“使用偏好”中“查找图书馆”,可以在命中的结果中选择需要显示访问链接的图书馆。现在缺省的选择是“图书馆搜索”──那是国家科学图书馆联合目录的链接标识(参见下文)。
发现一些查找结果是不可选的,如查“Shanghai”,结果处“灰色”状态,有7个不同的图书馆,但链接显示文字都是“Full Text@IngentaConnect”,显然并非这七所图书馆加入了该计划,而是IngentaConnect加入了该计划。
Google不会把这些图书馆都算入1200家中吧?那水份就太大了。

参见:
通过Google学术搜索下载图书馆订购电子资源 (2006-02-04)
国家科学图书馆的网络营销 (2006-05-03)
趋势:通过搜索引擎查找收费电子资源 (2005-06-18)