开源OPAC发布:VuFind

    不习惯用QQ,办公室的电脑上一直没装。那天上班急着找人,看Gtalk上没在线,想到此人总与人QQ聊天,无奈之下装上QQ。才上线,大旗底下的群里就跳出游园贴的VuFind链接,Keven叫好,便链过去略看,又一个好东西!晚上看网,就发现很多人都在谈VuFind了。

    “VuFind,图书馆资源门户,目标是取代传统OPAC,使用户能检索与浏览所有图书馆资源。”
    “VuFind完全模块化,可以只实施基本系统,也可采用所有组件。作为一个开源系统,可以修改模块以适应自己的需求,也可以增加新模块以扩展需要提供的资源。”

    首页右侧有六幅演示,基本上就能看到VuFind的用户界面了。应该说,与WorldCat很相似。不同的是,VuFind是开源的,大家都可以下载来安装在自己馆的机器上,看看效果如何。
    据OCLC的Roy Tennant介绍(VuFind Rocks the House),只要略懂技术并有权限在Unix机上安装软件,就可方便地安装。说是只需花数小时,或许就可给馆长看一个完全可用的馆藏新界面。真有那么酷?Roy Tennant称VuFind为OPAC杀手,称赞其清新设计、检索结果分面浏览和响应速度。
    7月19日Andrew Nagy在CODE4LIB上发布的消息称(Open Source OPAC – VUFind Beta Released):VuFind开发近一年,现为Beta阶段,希望在秋季发布一个稳定的产品;使用Apache Solr;目前适用于Voyager,正增加适用于常见ILS、甚至开源的Evergreen和Koha的驱动器(drivers)。Roy Tennant说目前意在取代OPAC的项目,还有几个也采用Solr

    应该说,谈VuFind已不是新闻了。
    Meredith Farkas最新博文(From the “to blog” folder)说,她发现想点评的文章与博文时,会放入“写博”文件夹中,然而最终发现实际上不可能写那么多。每天都会浏览大量RSS推送来的内容,对此深有同感,虽然自己没有这样一个文件夹。前几天没空,但心里一直惦记着不能不写写VuFind。
    如果能减去N岁,应该就不只是写写,还要亲手做做了。

Open Library概观

    Open Library玩好,就该认真学习了。从自我介绍看(About Us) ,这个项目是Internet Archive旧金山办公室的一个小组从年初开始做的,参与者(About the people)中见到了Karen Coyle(她的Blog:  Coyle's InFormation),那个把RDA称为“20世纪编目规则”的人,在这里被称为元数据沙皇(Metadata Czar)。

    这是个开源的项目,希望感兴趣的人参与。看看他们需要哪些帮助,可以看到他们未来的发展(How you can help):

·电话联系部分
Libraries:首先需要的是图书馆的MARC数据。目前已装入LC的800万图书,还想要其他国家图书馆的。
Publishers:出版商的ONIX数据。已有几家已经装入,或下载待装。
Swap sites (?)
Popularity data:图书推荐信息,目前只得到了LibraryThing的,还想要图书馆流通数据、网页出现数据,未来还会处理自己网站的页面浏览数据
Respect data:有质量的图书(不一定是畅销书),比如书评文摘光盘(Book Review Digest CD-ROM)、书评索引(Book Review Index)、主要期刊(LJ, PW, Booklist)中的书评,图书参考文献,获奖
Inter-book relations:主要是FRBR化的数据,包括想获取ThingISBN和xISBN,自己编制FRBR化算法
Copyright information:……还打算建立自己的注册服务?
Other:其他图书馆数据[雄心勃勃啊]

·设计部分
    另有对用户界面的详细讨论 (The State of the UI),值得细看,特别是有众多的参考文献。还有网站发布日程(Rollout Plan):
 7/16     Soft Launch
10/17     第一阶段发布
10月以后  第二阶段开发

·编程部分
Price check:作为综合性的图书信息网站,比价系统不可或缺
Export:导出格式RDF/XML, database dumps, OAI, microformats, Z39.50, a cover repository API [数据来自各方,也惠及各方,善哉]

Open Library特别向图书馆界提出希望合作的内容如下(About the librarianship)
·futurelib:一种元数据格式[很奇怪的名字],包含如MARC与ONIX那样图书馆员、出版商以及用户需要的信息。现在已有一个草案(draft schema)
·OLN (Open Library Number):书目控制号,适合于有或没有ISBN或ISTN号的所有图书
·Merging:有效的合并算法,合并不同来源的书目数据,以及同书的不同版本[FRBR化]
·Data colletion:作为一个开放的图书馆,数据越多越好[不知道有多少图书馆会响应号召]
·Ol-lib:感兴趣的,可以加入图书馆界讨论组(Ol-lib — Open Library — librarianship discussion)

Open Library用到的技术(About the technology)
·ThingDB:数据库,能够包括数亿记录,能保留随机用户的修改历史,以及新增的半结构化数据
·infogami:简化的、半结构化的维基,每个页面有type、每个type有一个schema
·OL Technology:丰富的插件,希望处理评论、比价等
    技客们,可以去看看其架构(Open Library Architecture),读读源码(Read the source code),加入技术讨论组(Ol-tech — Open Library — technical discussion)  

说明:
    2007-7-16,Open Library项目领导Aaron Swartz在自己的Raw Thought博客上发布演示版消息(Announcing the Open Library);项目经理Alexis Rossi也先后在Code4Lib与NGC4Lib上发布消息,随后引起各方报道。开始报道居多,渐渐多了评论。但其中似乎还缺少一些重要博客的声音:Lorcan Dempsey,Stephen Abram……,包括Karen Coyle本人。她写了一篇Copies, duplicates, identification,间接地谈到了OLN问题。
    评论中比较特别的是Panlibus博客上的几篇,重点涉及Open Library中数据的使用许可问题。虽然意在推销其公司的Talis Community License,但如果对开放数据的版权问题有兴趣者,适合一读。
·之一:The Open Library – Open for Business
·之二:License for Open Library ? ()
·之三:The Open Library, and keeping it open
    Richard Wallis在第一篇中除提及元数据schema及OLN外,特别提到没有看到数据使用许可——是否可以免费共享贡献的数据(openly sharing freely contributed data),并认为他们公司的Talis Community License很合适。对于希望提供类似服务的机构,这点很重要。
Aaron Swartz在文后留言,称所有贡献内容都是公共领域的,详细的许可用语尚在斟酌中。Richard Wallis又撰写第两篇,对public domain的说法持异议。
Rob Styles写的第三篇则对几个版权许可协议作了较多说明。

    另外,OhioLINK的Peter Murray比我更会玩,还把他玩的过程做了一个屏播(Disruptive Library Technology Jester: Open Library Demonstration Screencast ,可以直观地了解Open Library。全长12'31'',附文字说明。
    他检索后发现自己的作品未被收录,便给自己新建了一个作者页面(Type/author,不存在页面新建的缺省类型为Type/page),然后为自己的书新建了一条记录(Type/edition)(特别注意作者字段要用作者页面的形式,并以下划线相连,形如a/Murray_Peter_E)。建好后的书目记录与库中原有记录有完全一致的显示页面,真是特别棒。
    他特别提示的页面URL[可用于在其他网站引用、设置到链接服务器等]:
·全文:http://demo.openlibrary.org/search?q=tom+sawyer+adventure(空格以+代替)
·作者:http://demo.openlibrary.org/a/Murray_Peter_E(空格以_代替)
·书目:http://demo.openlibrary.org/b/Library_Patrons_Privacy(空格以_代替)

参见:
图书馆观点:Open Library 开张 (2007-7-19)
玩转Open Library (2007-7-21)

玩转Open Library

    最近一直在关注OPAC,有点走火入魔。看到Open Library演示网站发布,没想到它是开放内容联盟(OCA)庞大数字化内容的入口,就关心它的OPAC了。
    比较有意思的是,这个demo网站用IE似乎无法检索,换用Firefox倒是一切正常。OPAC功能方面,除了分面限定,以及提供图书购买、借阅、下载链接外,最有意思的就是元数据编辑功能了——又一个维基版OPAC。

    需要注册后才能修改元数据的模板,但做元数据编辑则不需要。可以在列出的长长字段列表中填写关于图书的各种信息,包括全文扫描信息与书目信息,还可以增加可重复字段,在最后还可以对自己编辑修改情况做个简要的说明。
    我没有注册,只不过想试试功能。见到元数据编辑页面最后三个选项Save、Preview和Delete,想看看做Delete有什么限制。比较搞笑的是,编辑的那条记录居然就这样方便地给我delete掉了!让人不敢相信,真是罪过啊!!!
    重新检索,发现检索结果中那条记录还在,但点击详情,显示“Not Found: This page does not exist”。真是惊出一身冷汗。仔细看看,边上还有一根救命稻草,上书:Create it。之前的内容都截了屏,既然可以自己创建,哪怕逐字输入也要把它恢复起来。
    点击创建之后,出来了编辑页面,但与之前看到的元数据模板完全不同,内容无从录入。仔细看第一行Page Type显示的是type/delete,应该是模板名称(后来知道是类型名称,每种类型可以有不同的模板),记得原来不是如此。按之前截屏内容,输入type/edition,然后点击Change——结果令我大舒一口气:被删除的内容出现了。经逐行对比,发现字段顺序略有改变(大概模板被什么人修改过了),但所有内容都在,不需要我逐字录入了。于是赶紧Save!

    不要以为开放的维基,什么人都可以编辑,就可以胡作非为。在这个demo网站所做的任何事,都被记录在它的Recent Changes页面:When,Path(b书目/user注册/templates模板),Who(IP地址或用户名),What,Action(View,可以看编辑后的情况;edit,可以自己编辑;diff,可以比较该用户编辑前后的变化)。不过我找到了自己的编辑信息,作了diff比较,似乎没看到什么不同。而且从前面的内容都被方便地恢复来看,似乎记录并没有实质性删除,只是被屏蔽起来了。或者说作为一个维基,实际上是不会删除任何内容的,原来的内容被作为历史保留在数据库中。或许对于被删除记录,创建的缺省设置就是恢复前一版本的内容。当然如果正确的内容被破坏了,还是需要有人来恢复的。

    在玩Open Library的维基前,我还先看了它的阅读全文部分,体验相当不错,与原来看Open Access书的那种粗糙感觉完全不同:
在线阅读,下载速度挺快;
翻页方便,与手翻纸本书有得一比;
全文检索,除显示命中结果数外,还在所有结果页面上插了书签,点书签即翻到该页,命中检索词重点显示;
提供PDF及DjVu二种格式下载,如需纸本,还可选择按需出版;
以古老的卡片形式显示详细的书目信息;
部分书还提供聆听功能(与暂时还没有提供的放大功能一样,方便残障人士利用吧)

参见:
图书馆观点:Open Library 开张 (19th Jul, 2007)