Google合作馆如何处理他们的数字化图书

    尽管官司缠身,Google图书搜索的合作馆仍在日益壮大,已经从英美扩大到了西班牙和德国,二年多时间从G5变成了G12。媒体关心Google如何处理那些数字化图书,而图书馆界则关心合作馆如何处理那些数字化图书——根据合约,合作馆向Google提供图书,Google数字化后会返回一份数字拷贝给合作馆。尽管合作馆以前都有过各自的数字化项目,但规模如此大的还是首次,除保存而外,又该如何利用呢?Jill E. Grogg和Beth Ashmore在Searcher上的文章“Google Book Search Libraries and Their Digital Copies”提供了一个概述。

◎ 加州大学(UC,2006年8月加入):未确定如何使用。但属于公共领域的资料会在本校自由无障碍地全文访问,比如链接到OPAC (Melvyl)中;受版权保护的图书仅在版权法范围内可访问。UC组织了一个小组,解决下一步如何将这些数字图书集成进自己的馆藏。

◎ 哈佛大学:目前没有使用这些数字化图书。未来的使用正在考虑中,但没有具体计划。尽管如此,正想像未来可以利用这些数字馆藏做文本挖掘,相信会为研究工作开创新的途径。

◎ 纽约公共图书馆:仍在计划如何使用,关注其他合作馆的相关动向。想像未来在检索他们的数字画廊时,不仅接收图片,而且还有有助于进一步研究的相关文本。

◎ 牛津大学:目前只计划如何保存这些数字化图书,如何更好地使用仍在探索中。牛津将从其OPAC链接到存于Google图书搜索的图像。

◎ 佛吉尼亚大学(UVA,2006年11月加入):到时会找到可做的事,比如给内容增值,但目前还不知道。

◎ 维斯康星大学麦迪逊分校(UW-M):对组织与提供访问有独特的计划。打算通过OPAC检索,与机构合作委员会(CIC)成员分担数字存贮。

◎ 密歇根大学:已有目前最发达的系统MBooks,提供访问其Google扫描资料。MBooks使用户可以通过在OPAC (Mirlyn)中的全文检索,找到图书并链接到图书页面(page turner)。在那里可以浏览、打印、放大、旋转页面,也可以做书内检索,并提供链接到Google图书搜索(那里有可能提供整书PDF文件下载)。数字化图书一般为600dpi G4压缩单页,重要插图为300dpi JPEG 2000图像;Google还提供配合每一页图像的OCR文本文件。

    总体来说,通过OPAC检索这些数字化图书,是大部分合作馆设想的主要利用途径。
    除了Google二巨头的母校参与计划最早,已经有实质性的使用外,其他合作馆基本上是有设想、没计划。
    大概是东西来得太轻易,就好像一个工薪族,一下子中了数亿六合彩,如何处理才不至于给生活带来负面影响,是够规划一阵子了。

    据称Google图书搜索的URL是固定的,任何组织都可以链接到Google图书搜索,而不用担心网址改变。

出处: Google Book Search Libraries and Their Digital Copies / by Jill E. Grogg, Electronic Resources Librarian, The University of Alabama Libraries; and Beth Ashmore, Cataloging Librarian, Samford University. Searcher, Vol. 15 No. 4 — April 2007    

参见:
Google Print:读者、图书馆、出版社、书商皆大欢喜 (2004-12-15)
Google Book Search当初叫Google Print。以为该皆大欢喜,结果商人不这么想,提供个背景吧。

Google数字化图书将终结传统图书馆? (2004-12-18)
好象图书馆也不这么想。一家之言。

联机图书馆目录:失乐园、复乐园

联机图书馆目录:失乐园、复乐园 / Karen Markey

The Online Library Catalog: Paradise Lost and Paradise Regained?
D-Lib Magazine, January/February 2007, Volume 13 Number 1/2 (ISSN 1082-9873)

作者引用的一些资料 (Paradise Lost):
    1980年代早期的一项全美调查显示,80%以上图书馆用户对OPAC持赞成态度。但从一开始,用户就希望OPAC改进主题检索,希望引入目次与期刊论文。到1990年代初期,研究者建议作出的改进有:
1、为使联机目录的主题检索更简单,应采用后布尔概率检索,带自动拼写更正、词加权、智能词干、相关反馈及输出排序
2、为方便用户选定目录中的图书,在编目记录(即元数据)中增加目次、书后索引
3、为减少无结果的主题检索,用全文(报刊文章、百科全书、学位论文、政府文件等)充实联机目录
4、通过图书馆分类,扩展联机目录的寻找策略
    接着作者分析了上述解决方案没有被采用的十个理由。

作者给OPAC开出的药方 (A Second Chance to Redesign the Online Library Catalog)
★ Embrace Post-Boolean Probabilistic Searching  采用(Google和其他搜索引擎所用的)后布尔概率检索,取代过时的布尔式目录 [最具技术难度的部分]
★ Embrace Subject Cataloging 采用主题编目 [描述编目走向没落]
信息存储的30:1法则(题名和主题是目次的1/30,目次是书后索引的1/30,书后索引是全文的1/30)
在后布尔概率检索中注重主题标目、分类号、分类说明、目次、书后索引:
1、排序算法:上述内容权重高于正文
2、简单文本显示:题名、主题、分类说明用于在检索结果列表中快速浏览,确定相关文献
3、相关反馈(“发现更多类似”)机制:题名与主题比正文更高权重。如NCSU的新版Endeca目录的虚拟分类法浏览、LC主题分面。
★ Expand with Qualification Metadata 用限定元数据扩充
可用的文献属性举例:
In a discipline 学科
With knowledge of this subject at a particular academic level 学术层次 [与“读者对象”的关系?]
To what extent the author is an authority on the topic at hand 作者权威性
For a particular class of people 读者对象
Is a particular genre or of a particular literary nature 文献类别
When the particular subject took place 时代
What can be done with the document 用处
How others benefited from using the document 评论、评级
What kind of experience the user gets from the document 用户体验(惊恐故事、悲伤图片、笑话、心碎诗歌等)

作者设想的未来联机目录原型的主题存取功能举例 (Building the Future Online Catalog Now):
★ 排序算法,给元数据记录中的摘要数据如题名、主题、分类号与限定元数据以最高权重,确保排序输出的准确
★ 相关反馈(即“发现更多类似”)机制,给予题名、主题、分类号与限定元数据以比数字化正文中的词与词组更高的权重
★ 用户想在目录检索结果简单显示表中看到的数据元素
★ 用于限定的文献属性,使检索更相关,与用户的智力水平一致
★ 限定属性选择机制,易于检索者理解与使用
★ 用于检索、排序、相关反馈与显示的引用数据的作用
★ 显示与处理全文的能力,如检索、导航、重点显示、加注释、页边加注、与他人共享等
★ 标记元数据(加标签)机制,鼓励用户参与
★ 将联机目录集成到更大的通用信息搜寻场所——Google及互联网,期刊搜索、搜索不可见WEB、机构库搜索等

作者认为OPAC功能的改善也需要2.0
    以前图书馆界的决策由少数关键人物、咨询机构或专业学会作出,现在已不应当再这样了。首先,有这样的技术,能够在决策阶段让更多人有更大参与度(inclusive);其次,我们面对着不确定的未来,需要经历一个转变,从将少数大机构及其馆藏、权威与人员看法放在首位,转向需要所有参与者的联盟。第三,成功实施共享的、基于技术的决策,能够在本领域中树立未来决策的标准,并鼓舞其它领域采用这一方法。

作者的结论
    是否采用她的上述设想并不重要,重要的是重新思考图书馆编目与联机目录,关注联机目录的未来。要抢大规模数字化项目结束前,让所有感兴趣的团体参与严肃的对话、设计原型系统、作出决策,使未来的联机目录有稳固的基础。
    最后一句话:Should we fail to act until all the books are digitized and the copyright problems are solved, the last person to leave to digitization workroom may be turning off the lights on the library.

    文章表达了很多人近年感受到的Google等大规模数字化项目的压力,以及由此对改进OPAC的紧迫感。问题是,OPAC所能揭示的内容,如文中书所述,最大限度也不过文本的1/30——再长就不是OPAC,而是全文检索系统了。即使在大规模数字化结束、版权问题解决之前,将OPAC改造得尽善尽美了,图书馆的灯就能长明吗?基于全文的数据挖掘技术在不断的进展中,未来还需要OPAC吗?
    乐园恐怕难以失而复得,或许对OPAC的所有改进只不过是苟延残喘,站好最后一班岗;再令人兴奋的新功能,也不过是给猪抹口红(
Roy Tennant),一番化妆打扮后,还是要送到屠宰场的。

AADL的新版OPAC

AADL的OPAC很引人注目,比如任何人可以标注的卡片目录、丰富的内容敏感信息链接、OPAC检索结果RSS订阅等等。2007/1/21,其OPAC再度升级完成,引入了对馆藏进行评级、标签、评论、回复评论等社会性功能。使用这些社会性功能不限于其持证读者,只要经过注册,任何人都可以参与进去。
开发者John Blyberg (http://www.blyberg.net/) 也在其博客中骄傲地宣布,在忙活了一年之后,“ADL.org Goes Social”,他将新版OPAC称为SOPAC,即Social OPAC的简称。他视之为一个里程碑。
在博文中连文字带截图解释了不少新功能,如Top/Last 10 tags、Top/Last 10 Reviews等,John意犹未尽,又做了一个片长达16:14的录屏文件(88.5MB),更全面地解释其功能(示例数据,与实际OPAC检索结果不完全相同)。
从录屏中,可以看到升级前OPAC的功能(John颇为得意的Library Card Image),还可以看到更多的社会性功能,如报告abuse,让群众雪亮的眼睛帮助网管监管不当使用;再如选择评论对自己是否有帮助;还有无处不在的RSS——某本书/所有书/某位评论者的评论等,并且其RSS的URL构成也很明了。另外,My Account 除了借阅等个人帐户信息外,还有管理自己标签、评论等功能。

AADL用的是III的系统,最近III发布了称为“Encore”的软件包,也有SOPAC的一些社会性功能。AADL自然不需要再花钱去购买了。
采用III的图书馆如果也有对写代码感兴趣的,或许也不需要花钱就可以实现相同的功能,因为John把他的源代码打成了包,提供下载。在他的下载目录(http://www.blyberg.net/files/)中,还有更多内容。

参见:
AADL Library News: New Website Enhancemnts
http://www.aadl.org/node/3534

blybert.net: ADL.org Goes Social
http://www.blyberg.net/2007/01/21/aadlorg-goes-social/

Superpatron: Ann Arbor District Library adds patron tagging, rating of items
http://vielmetti.typepad.com/superpatron/2007/01/ann_arbor_distr.html
AADL的超级用户Edward Vielmetti为AADL的SOPAC鼓与呼!

Self-plagiarism is style: Blyberg Rocks!
http://www.daveyp.com/blog/index.php/archives/161/
英国Huddersfield大学的OPAC也同样引人注目,馆藏楼层位置示意图曾令我很是感慨,最近Dave Pattern在设想通过RFID,更精细地把架位标示出来。
Dave极为羡慕John Blyberg的管理层给他时间,可以弄出这么好的OPAC。同时很“惭愧”地宣布本周他们的OPAC也将发布用户评论功能,并且对自己说:“以后什么事都要在John之前宣布,否则别人会认为你是抄袭John的!”。Huddersfield大学的OPAC原就有评级功能,这次增加评论功能,据称原因之一是某些书才上架数小时、还未出借,就被加上了星级。
受John公开源代码的感召,Dave宣布如有人对他的代码感兴趣,他将很乐意与之共享。Huddersfield用的是Horizon,leon感兴趣吗?

Librarians Matter: Grow your own OPAC…but save those kittens.
http://librariansmatter.com/blog/2007/01/22/grow-your-own-opacbut-save-those-kittens/
Dave说自己要“赤手空拳杀死一窝可爱的小猫”(kill a box of cute kittens with my bare hands)才有功夫做成像John那样的项目。来自澳洲的Kathryn Greenhill说她来帮着把小猫养大,直到它们有John和Dave那样的编程技术。表达的是非技术人员对Geek们的支持。我也希望有这样的Geek可以支持。