opac – 第 17 页 – 编目精灵III

Google图书搜索的电子书网址

越来越多的图书被数字化并上网，如果能够在OPAC中揭示出这些电子书的存在，无疑将方便读者利用。要在OPAC中提供链接，首先需要解决的问题是得到这些电子书的网址。Karen Coyle曾设想建立一个转换数据库("switching" database)，能够通过LCCN、ISBN、OCLC#及少量书目元数据，获取数字图书的URL（包括Google图书搜索、开放内容联盟OCA及古登堡计划）。除非这些数字化项目本身支持，否则这个大工程可是很棘手的。

Google图书搜索(GBS)虽则官司缠身，可与之合作的图书馆却在陆续增加，数字化的图书也在不断上网。目前能提供全文阅读的比例不高（美国以外这个比例更低），但能够阅读部分、或者目次也有一定需求，因此增加GBS的链接，对图书馆有了一定的吸引力。

在近年OPAC的改进过程中，使用亚马逊的信息比较多。除了内容丰富外，技术上的原因主要是亚马逊在有ISBN的情况下，直接用ISBN号作为其标识，可以很方便地构成图书各方面信息的URL，提供链接；另一个原因是亚马逊提供API，可以把封面、书评等内容直接嵌入OPAC的显示页面。而这两点，对GBS似乎都不存在。

查GBS就会发现，它的图书标识是一长串似乎随机生成的代码，如“5EccAAAACAAJ”，据说是根据数字化时图书的条码号生成的。澳大利亚国家图书馆的LibraryLabs是很少几个链接GBS的OPAC，它规避了特定电子书的URL问题，通过OPAC检索时所用词串检索GBS得到一批图书封面及链接。而一般OPAC需要链接到某一特定版本，没有其标识号无法实现。

其实GBS不只有一个ID，ISBN、OCLC#都可能是ID (vid, varied id?)，这种多重ID的形式，其实对提供链接是一个福音。如前述ID的这本书，是庄子逸、许文霞所译兰开斯特的《通向无纸情报系统》，在GBS中查得到的URL是http://books.google.com/books?id=5EccAAAACAAJ，而用ISBN号的URL是：http://books.google.com/books?vid=7502305424。

美国东密歇根大学在去年十一月就通过OCLC#在OPAC中动态提供GBS的链接（根据是否能获取全文，给出不同的显示文字）。根据用此法得到的数据，仅有约5%有全文，约10%可以看片断。[update 2007-9-28] Wake Forest 大学 Professional Center Library 也采用东密歇根大学的方法提供GBS链接，一个使用OCLC#的实例：http://books.google.com/books?vid=OCLC49284042。

问题在于，无论是ISBN还是OCLC#，都不能保证查到实际上存在的GBS电子书。比如：http://books.google.com/books?id=CV0lHa0j2YAC，该书的ISBN为0802142818，但用http://books.google.com/books?vid=0802142818则没有结果 [2007-9-28更正：用http://books.google.com/books?vid=ISBN0802142818可以检索到。也就是说，使用ISBN时，加上ISBN标识检出可能性较高]。Karen举了另一个例子：http://books.google.com/books?id=MgSoZJLtmGQC。此书在哈佛大学书目中的OCLC#是16730575，但用此号构造出的URL并不存在(Not Found)。关于OCLC#，据说在WorldCat中对数字化图书都会另外给一个OCLC#，如此则原来纸本的OCLC#在这种情况下有用性大大降低。对于大量早期没有ISBN的图书，就只有利用GBS的ID一条途径了。

LibraryThing的Tim Spalding要获取GBS的ID。因为之前AADL的John Blyberg曾试图用机器人获取，结果被Google封杀，所以Tim想如之前LT做合并同一版本那样，再次依靠群众的力量。他做了一个名为"Google Book Search Search"的小书签(bookmarklet)，让LT用户及其他人在访问GBS时使用，以获取GBS的图书ID。由于是不同IP的人在分散访问GBS，或许可以避免被Google封杀——关于此点，Tim没有把握，毕竟是同用一个程序在获取数据。他在早上2点发布GBSS小书签，到晚上10点多发贴时，已有超过300个LT用户装上并开始使用了。
Tim承诺所有获取的数据将会共享，供图书馆强化自己的OPAC。并设想（有了足够的数据后）在LibraryThing for Libraries中作为免费的部分提供。目前LT用户提供的数据可以在该网站的“Google Book Search Search Data”看到，全部数据的XML文件也可以下载。

via: NGC4LIB
Adding links to books in Google Book Search within the OPAC (2007-9-14)
Announcing Google Book Search, um, Search (2007-9-17)

参见：
LibraryThing Blog: Google Book Search … on LibraryThing (2007-9-17)
http://www.librarything.com/blog/2007/09/google-book-search-on-librarything.php

Google图书搜索成为世界OPAC? (2006-8-25)
/posts/2006/0825/826
Google的《莎士比亚戏剧全集》 (2006-06-22)
/posts/2006/0622/824
Google合作馆如何处理他们的数字化图书 (2007-04-04)
/posts/2007/0404/482

在OPAC中嵌入LibraryThing提供的相关链接 (2007-04-10)
/posts/2007/0410/480
把图书馆2.0带入你的目录：LibraryThing for Libraries有了第一个用户 (2007-05-15)
/posts/2007/0515/466
thingISBN――用户视角的FRBR化成果 (2006-07-02)
/posts/2006/0702/854

开源OPAC发布：VuFind

不习惯用QQ，办公室的电脑上一直没装。那天上班急着找人，看Gtalk上没在线，想到此人总与人QQ聊天，无奈之下装上QQ。才上线，大旗底下的群里就跳出游园贴的VuFind链接，Keven叫好，便链过去略看，又一个好东西！晚上看网，就发现很多人都在谈VuFind了。

“VuFind，图书馆资源门户，目标是取代传统OPAC，使用户能检索与浏览所有图书馆资源。”
“VuFind完全模块化，可以只实施基本系统，也可采用所有组件。作为一个开源系统，可以修改模块以适应自己的需求，也可以增加新模块以扩展需要提供的资源。”

    首页右侧有六幅演示，基本上就能看到VuFind的用户界面了。应该说，与WorldCat很相似。不同的是，VuFind是开源的，大家都可以下载来安装在自己馆的机器上，看看效果如何。
    据OCLC的Roy Tennant介绍(VuFind Rocks the House)，只要略懂技术并有权限在Unix机上安装软件，就可方便地安装。说是只需花数小时，或许就可给馆长看一个完全可用的馆藏新界面。真有那么酷？Roy Tennant称VuFind为OPAC杀手，称赞其清新设计、检索结果分面浏览和响应速度。
    7月19日Andrew Nagy在CODE4LIB上发布的消息称(Open Source OPAC – VUFind Beta Released)：VuFind开发近一年，现为Beta阶段，希望在秋季发布一个稳定的产品；使用Apache Solr；目前适用于Voyager，正增加适用于常见ILS、甚至开源的Evergreen和Koha的驱动器(drivers)。Roy Tennant说目前意在取代OPAC的项目，还有几个也采用Solr。

    应该说，谈VuFind已不是新闻了。
    Meredith Farkas最新博文（From the “to blog” folder）说，她发现想点评的文章与博文时，会放入“写博”文件夹中，然而最终发现实际上不可能写那么多。每天都会浏览大量RSS推送来的内容，对此深有同感，虽然自己没有这样一个文件夹。前几天没空，但心里一直惦记着不能不写写VuFind。
    如果能减去N岁，应该就不只是写写，还要亲手做做了。

Open Library概观

Open Library玩好，就该认真学习了。从自我介绍看(About Us) ，这个项目是Internet Archive旧金山办公室的一个小组从年初开始做的，参与者(About the people)中见到了Karen Coyle（她的Blog: Coyle's InFormation），那个把RDA称为“20世纪编目规则”的人，在这里被称为元数据沙皇(Metadata Czar)。

这是个开源的项目，希望感兴趣的人参与。看看他们需要哪些帮助，可以看到他们未来的发展(How you can help)：

·电话联系部分
Libraries：首先需要的是图书馆的MARC数据。目前已装入LC的800万图书，还想要其他国家图书馆的。
Publishers：出版商的ONIX数据。已有几家已经装入，或下载待装。
Swap sites (?)
Popularity data：图书推荐信息，目前只得到了LibraryThing的，还想要图书馆流通数据、网页出现数据，未来还会处理自己网站的页面浏览数据
Respect data：有质量的图书（不一定是畅销书），比如书评文摘光盘(Book Review Digest CD-ROM)、书评索引(Book Review Index)、主要期刊(LJ, PW, Booklist)中的书评，图书参考文献，获奖
Inter-book relations：主要是FRBR化的数据，包括想获取ThingISBN和xISBN，自己编制FRBR化算法
Copyright information：……还打算建立自己的注册服务？
Other：其他图书馆数据[雄心勃勃啊]

·设计部分
    另有对用户界面的详细讨论 (The State of the UI)，值得细看，特别是有众多的参考文献。还有网站发布日程(Rollout Plan)：
7/16     Soft Launch
10/17     第一阶段发布
10月以后第二阶段开发

·编程部分
Price check：作为综合性的图书信息网站，比价系统不可或缺
Export：导出格式RDF/XML, database dumps, OAI, microformats, Z39.50, a cover repository API [数据来自各方，也惠及各方，善哉]

Open Library特别向图书馆界提出希望合作的内容如下(About the librarianship)
·futurelib：一种元数据格式[很奇怪的名字]，包含如MARC与ONIX那样图书馆员、出版商以及用户需要的信息。现在已有一个草案(draft schema)
·OLN (Open Library Number)：书目控制号，适合于有或没有ISBN或ISTN号的所有图书
·Merging：有效的合并算法，合并不同来源的书目数据，以及同书的不同版本[FRBR化]
·Data colletion：作为一个开放的图书馆，数据越多越好[不知道有多少图书馆会响应号召]
·Ol-lib：感兴趣的，可以加入图书馆界讨论组(Ol-lib — Open Library — librarianship discussion)

Open Library用到的技术(About the technology)
·ThingDB：数据库，能够包括数亿记录，能保留随机用户的修改历史，以及新增的半结构化数据
·infogami：简化的、半结构化的维基，每个页面有type、每个type有一个schema
·OL Technology：丰富的插件，希望处理评论、比价等
技客们，可以去看看其架构(Open Library Architecture)，读读源码(Read the source code)，加入技术讨论组(Ol-tech — Open Library — technical discussion)

说明：
    2007-7-16，Open Library项目领导Aaron Swartz在自己的Raw Thought博客上发布演示版消息（Announcing the Open Library）；项目经理Alexis Rossi也先后在Code4Lib与NGC4Lib上发布消息，随后引起各方报道。开始报道居多，渐渐多了评论。但其中似乎还缺少一些重要博客的声音：Lorcan Dempsey，Stephen Abram……，包括Karen Coyle本人。她写了一篇Copies, duplicates, identification，间接地谈到了OLN问题。
    评论中比较特别的是Panlibus博客上的几篇，重点涉及Open Library中数据的使用许可问题。虽然意在推销其公司的Talis Community License，但如果对开放数据的版权问题有兴趣者，适合一读。
·之一：The Open Library – Open for Business
·之二：License for Open Library ? ()
·之三：The Open Library, and keeping it open
    Richard Wallis在第一篇中除提及元数据schema及OLN外，特别提到没有看到数据使用许可——是否可以免费共享贡献的数据(openly sharing freely contributed data)，并认为他们公司的Talis Community License很合适。对于希望提供类似服务的机构，这点很重要。
Aaron Swartz在文后留言，称所有贡献内容都是公共领域的，详细的许可用语尚在斟酌中。Richard Wallis又撰写第两篇，对public domain的说法持异议。
Rob Styles写的第三篇则对几个版权许可协议作了较多说明。

    另外，OhioLINK的Peter Murray比我更会玩，还把他玩的过程做了一个屏播(Disruptive Library Technology Jester: Open Library Demonstration Screencast ，可以直观地了解Open Library。全长12'31''，附文字说明。
    他检索后发现自己的作品未被收录，便给自己新建了一个作者页面(Type/author，不存在页面新建的缺省类型为Type/page)，然后为自己的书新建了一条记录(Type/edition)（特别注意作者字段要用作者页面的形式，并以下划线相连，形如a/Murray_Peter_E）。建好后的书目记录与库中原有记录有完全一致的显示页面，真是特别棒。
    他特别提示的页面URL[可用于在其他网站引用、设置到链接服务器等]：
·全文：http://demo.openlibrary.org/search?q=tom+sawyer+adventure（空格以+代替）
·作者：http://demo.openlibrary.org/a/Murray_Peter_E（空格以_代替）
·书目：http://demo.openlibrary.org/b/Library_Patrons_Privacy（空格以_代替）

参见：
图书馆观点：Open Library 开张 (2007-7-19)
玩转Open Library (2007-7-21)