Google图书搜索的电子书网址

    越来越多的图书被数字化并上网,如果能够在OPAC中揭示出这些电子书的存在,无疑将方便读者利用。要在OPAC中提供链接,首先需要解决的问题是得到这些电子书的网址。Karen Coyle曾设想建立一个转换数据库("switching" database),能够通过LCCN、ISBN、OCLC#及少量书目元数据,获取数字图书的URL(包括Google图书搜索、开放内容联盟OCA及古登堡计划)。除非这些数字化项目本身支持,否则这个大工程可是很棘手的。

    Google图书搜索(GBS)虽则官司缠身,可与之合作的图书馆却在陆续增加,数字化的图书也在不断上网。目前能提供全文阅读的比例不高(美国以外这个比例更低),但能够阅读部分、或者目次也有一定需求,因此增加GBS的链接,对图书馆有了一定的吸引力。

    在近年OPAC的改进过程中,使用亚马逊的信息比较多。除了内容丰富外,技术上的原因主要是亚马逊在有ISBN的情况下,直接用ISBN号作为其标识,可以很方便地构成图书各方面信息的URL,提供链接;另一个原因是亚马逊提供API,可以把封面、书评等内容直接嵌入OPAC的显示页面。而这两点,对GBS似乎都不存在。

    查GBS就会发现,它的图书标识是一长串似乎随机生成的代码,如“5EccAAAACAAJ”,据说是根据数字化时图书的条码号生成的。澳大利亚国家图书馆的LibraryLabs是很少几个链接GBS的OPAC,它规避了特定电子书的URL问题,通过OPAC检索时所用词串检索GBS得到一批图书封面及链接。而一般OPAC需要链接到某一特定版本,没有其标识号无法实现。

    其实GBS不只有一个ID,ISBN、OCLC#都可能是ID (vid, varied id?),这种多重ID的形式,其实对提供链接是一个福音。如前述ID的这本书,是庄子逸、许文霞所译兰开斯特的《通向无纸情报系统》,在GBS中查得到的URL是http://books.google.com/books?id=5EccAAAACAAJ,而用ISBN号的URL是:http://books.google.com/books?vid=7502305424

    美国东密歇根大学在去年十一月就通过OCLC#在OPAC中动态提供GBS的链接(根据是否能获取全文,给出不同的显示文字)。根据用此法得到的数据,仅有约5%有全文,约10%可以看片断。[update 2007-9-28] Wake Forest 大学 Professional Center Library 也采用东密歇根大学的方法提供GBS链接,一个使用OCLC#的实例:http://books.google.com/books?vid=OCLC49284042

    问题在于,无论是ISBN还是OCLC#,都不能保证查到实际上存在的GBS电子书。比如:http://books.google.com/books?id=CV0lHa0j2YAC,该书的ISBN为0802142818,但用http://books.google.com/books?vid=0802142818则没有结果 [2007-9-28更正:用http://books.google.com/books?vid=ISBN0802142818可以检索到。也就是说,使用ISBN时,加上ISBN标识检出可能性较高]。Karen举了另一个例子:http://books.google.com/books?id=MgSoZJLtmGQC。此书在哈佛大学书目中的OCLC#是16730575,但用此号构造出的URL并不存在(Not Found)。关于OCLC#,据说在WorldCat中对数字化图书都会另外给一个OCLC#,如此则原来纸本的OCLC#在这种情况下有用性大大降低。对于大量早期没有ISBN的图书,就只有利用GBS的ID一条途径了。

    LibraryThing的Tim Spalding要获取GBS的ID。因为之前AADL的John Blyberg曾试图用机器人获取,结果被Google封杀,所以Tim想如之前LT做合并同一版本那样,再次依靠群众的力量。他做了一个名为"Google Book Search Search"的小书签(bookmarklet),让LT用户及其他人在访问GBS时使用,以获取GBS的图书ID。由于是不同IP的人在分散访问GBS,或许可以避免被Google封杀——关于此点,Tim没有把握,毕竟是同用一个程序在获取数据。他在早上2点发布GBSS小书签,到晚上10点多发贴时,已有超过300个LT用户装上并开始使用了。
    Tim承诺所有获取的数据将会共享,供图书馆强化自己的OPAC。并设想(有了足够的数据后)在LibraryThing for Libraries中作为免费的部分提供。目前LT用户提供的数据可以在该网站的“Google Book Search Search Data”看到,全部数据的XML文件也可以下载

via: NGC4LIB
Adding links to books in Google Book Search within the OPAC (2007-9-14)
Announcing Google Book Search, um, Search (2007-9-17)

参见:
LibraryThing Blog: Google Book Search … on LibraryThing (2007-9-17)
http://www.librarything.com/blog/2007/09/google-book-search-on-librarything.php

Google图书搜索成为世界OPAC? (2006-8-25)
/posts/2006/0825/826
Google的《莎士比亚戏剧全集》 (2006-06-22)
/posts/2006/0622/824
Google合作馆如何处理他们的数字化图书 (2007-04-04)
/posts/2007/0404/482

在OPAC中嵌入LibraryThing提供的相关链接 (2007-04-10)
/posts/2007/0410/480
把图书馆2.0带入你的目录:LibraryThing for Libraries有了第一个用户 (2007-05-15)
/posts/2007/0515/466
thingISBN――用户视角的FRBR化成果 (2006-07-02)
/posts/2006/0702/854

开源OPAC发布:VuFind

    不习惯用QQ,办公室的电脑上一直没装。那天上班急着找人,看Gtalk上没在线,想到此人总与人QQ聊天,无奈之下装上QQ。才上线,大旗底下的群里就跳出游园贴的VuFind链接,Keven叫好,便链过去略看,又一个好东西!晚上看网,就发现很多人都在谈VuFind了。

    “VuFind,图书馆资源门户,目标是取代传统OPAC,使用户能检索与浏览所有图书馆资源。”
    “VuFind完全模块化,可以只实施基本系统,也可采用所有组件。作为一个开源系统,可以修改模块以适应自己的需求,也可以增加新模块以扩展需要提供的资源。”

    首页右侧有六幅演示,基本上就能看到VuFind的用户界面了。应该说,与WorldCat很相似。不同的是,VuFind是开源的,大家都可以下载来安装在自己馆的机器上,看看效果如何。
    据OCLC的Roy Tennant介绍(VuFind Rocks the House),只要略懂技术并有权限在Unix机上安装软件,就可方便地安装。说是只需花数小时,或许就可给馆长看一个完全可用的馆藏新界面。真有那么酷?Roy Tennant称VuFind为OPAC杀手,称赞其清新设计、检索结果分面浏览和响应速度。
    7月19日Andrew Nagy在CODE4LIB上发布的消息称(Open Source OPAC – VUFind Beta Released):VuFind开发近一年,现为Beta阶段,希望在秋季发布一个稳定的产品;使用Apache Solr;目前适用于Voyager,正增加适用于常见ILS、甚至开源的Evergreen和Koha的驱动器(drivers)。Roy Tennant说目前意在取代OPAC的项目,还有几个也采用Solr

    应该说,谈VuFind已不是新闻了。
    Meredith Farkas最新博文(From the “to blog” folder)说,她发现想点评的文章与博文时,会放入“写博”文件夹中,然而最终发现实际上不可能写那么多。每天都会浏览大量RSS推送来的内容,对此深有同感,虽然自己没有这样一个文件夹。前几天没空,但心里一直惦记着不能不写写VuFind。
    如果能减去N岁,应该就不只是写写,还要亲手做做了。

Open Library概观

    Open Library玩好,就该认真学习了。从自我介绍看(About Us) ,这个项目是Internet Archive旧金山办公室的一个小组从年初开始做的,参与者(About the people)中见到了Karen Coyle(她的Blog:  Coyle's InFormation),那个把RDA称为“20世纪编目规则”的人,在这里被称为元数据沙皇(Metadata Czar)。

    这是个开源的项目,希望感兴趣的人参与。看看他们需要哪些帮助,可以看到他们未来的发展(How you can help):

·电话联系部分
Libraries:首先需要的是图书馆的MARC数据。目前已装入LC的800万图书,还想要其他国家图书馆的。
Publishers:出版商的ONIX数据。已有几家已经装入,或下载待装。
Swap sites (?)
Popularity data:图书推荐信息,目前只得到了LibraryThing的,还想要图书馆流通数据、网页出现数据,未来还会处理自己网站的页面浏览数据
Respect data:有质量的图书(不一定是畅销书),比如书评文摘光盘(Book Review Digest CD-ROM)、书评索引(Book Review Index)、主要期刊(LJ, PW, Booklist)中的书评,图书参考文献,获奖
Inter-book relations:主要是FRBR化的数据,包括想获取ThingISBN和xISBN,自己编制FRBR化算法
Copyright information:……还打算建立自己的注册服务?
Other:其他图书馆数据[雄心勃勃啊]

·设计部分
    另有对用户界面的详细讨论 (The State of the UI),值得细看,特别是有众多的参考文献。还有网站发布日程(Rollout Plan):
 7/16     Soft Launch
10/17     第一阶段发布
10月以后  第二阶段开发

·编程部分
Price check:作为综合性的图书信息网站,比价系统不可或缺
Export:导出格式RDF/XML, database dumps, OAI, microformats, Z39.50, a cover repository API [数据来自各方,也惠及各方,善哉]

Open Library特别向图书馆界提出希望合作的内容如下(About the librarianship)
·futurelib:一种元数据格式[很奇怪的名字],包含如MARC与ONIX那样图书馆员、出版商以及用户需要的信息。现在已有一个草案(draft schema)
·OLN (Open Library Number):书目控制号,适合于有或没有ISBN或ISTN号的所有图书
·Merging:有效的合并算法,合并不同来源的书目数据,以及同书的不同版本[FRBR化]
·Data colletion:作为一个开放的图书馆,数据越多越好[不知道有多少图书馆会响应号召]
·Ol-lib:感兴趣的,可以加入图书馆界讨论组(Ol-lib — Open Library — librarianship discussion)

Open Library用到的技术(About the technology)
·ThingDB:数据库,能够包括数亿记录,能保留随机用户的修改历史,以及新增的半结构化数据
·infogami:简化的、半结构化的维基,每个页面有type、每个type有一个schema
·OL Technology:丰富的插件,希望处理评论、比价等
    技客们,可以去看看其架构(Open Library Architecture),读读源码(Read the source code),加入技术讨论组(Ol-tech — Open Library — technical discussion)  

说明:
    2007-7-16,Open Library项目领导Aaron Swartz在自己的Raw Thought博客上发布演示版消息(Announcing the Open Library);项目经理Alexis Rossi也先后在Code4Lib与NGC4Lib上发布消息,随后引起各方报道。开始报道居多,渐渐多了评论。但其中似乎还缺少一些重要博客的声音:Lorcan Dempsey,Stephen Abram……,包括Karen Coyle本人。她写了一篇Copies, duplicates, identification,间接地谈到了OLN问题。
    评论中比较特别的是Panlibus博客上的几篇,重点涉及Open Library中数据的使用许可问题。虽然意在推销其公司的Talis Community License,但如果对开放数据的版权问题有兴趣者,适合一读。
·之一:The Open Library – Open for Business
·之二:License for Open Library ? ()
·之三:The Open Library, and keeping it open
    Richard Wallis在第一篇中除提及元数据schema及OLN外,特别提到没有看到数据使用许可——是否可以免费共享贡献的数据(openly sharing freely contributed data),并认为他们公司的Talis Community License很合适。对于希望提供类似服务的机构,这点很重要。
Aaron Swartz在文后留言,称所有贡献内容都是公共领域的,详细的许可用语尚在斟酌中。Richard Wallis又撰写第两篇,对public domain的说法持异议。
Rob Styles写的第三篇则对几个版权许可协议作了较多说明。

    另外,OhioLINK的Peter Murray比我更会玩,还把他玩的过程做了一个屏播(Disruptive Library Technology Jester: Open Library Demonstration Screencast ,可以直观地了解Open Library。全长12'31'',附文字说明。
    他检索后发现自己的作品未被收录,便给自己新建了一个作者页面(Type/author,不存在页面新建的缺省类型为Type/page),然后为自己的书新建了一条记录(Type/edition)(特别注意作者字段要用作者页面的形式,并以下划线相连,形如a/Murray_Peter_E)。建好后的书目记录与库中原有记录有完全一致的显示页面,真是特别棒。
    他特别提示的页面URL[可用于在其他网站引用、设置到链接服务器等]:
·全文:http://demo.openlibrary.org/search?q=tom+sawyer+adventure(空格以+代替)
·作者:http://demo.openlibrary.org/a/Murray_Peter_E(空格以_代替)
·书目:http://demo.openlibrary.org/b/Library_Patrons_Privacy(空格以_代替)

参见:
图书馆观点:Open Library 开张 (2007-7-19)
玩转Open Library (2007-7-21)