联机图书馆目录:失乐园、复乐园

联机图书馆目录:失乐园、复乐园 / Karen Markey

The Online Library Catalog: Paradise Lost and Paradise Regained?
D-Lib Magazine, January/February 2007, Volume 13 Number 1/2 (ISSN 1082-9873)

作者引用的一些资料 (Paradise Lost):
    1980年代早期的一项全美调查显示,80%以上图书馆用户对OPAC持赞成态度。但从一开始,用户就希望OPAC改进主题检索,希望引入目次与期刊论文。到1990年代初期,研究者建议作出的改进有:
1、为使联机目录的主题检索更简单,应采用后布尔概率检索,带自动拼写更正、词加权、智能词干、相关反馈及输出排序
2、为方便用户选定目录中的图书,在编目记录(即元数据)中增加目次、书后索引
3、为减少无结果的主题检索,用全文(报刊文章、百科全书、学位论文、政府文件等)充实联机目录
4、通过图书馆分类,扩展联机目录的寻找策略
    接着作者分析了上述解决方案没有被采用的十个理由。

作者给OPAC开出的药方 (A Second Chance to Redesign the Online Library Catalog)
★ Embrace Post-Boolean Probabilistic Searching  采用(Google和其他搜索引擎所用的)后布尔概率检索,取代过时的布尔式目录 [最具技术难度的部分]
★ Embrace Subject Cataloging 采用主题编目 [描述编目走向没落]
信息存储的30:1法则(题名和主题是目次的1/30,目次是书后索引的1/30,书后索引是全文的1/30)
在后布尔概率检索中注重主题标目、分类号、分类说明、目次、书后索引:
1、排序算法:上述内容权重高于正文
2、简单文本显示:题名、主题、分类说明用于在检索结果列表中快速浏览,确定相关文献
3、相关反馈(“发现更多类似”)机制:题名与主题比正文更高权重。如NCSU的新版Endeca目录的虚拟分类法浏览、LC主题分面。
★ Expand with Qualification Metadata 用限定元数据扩充
可用的文献属性举例:
In a discipline 学科
With knowledge of this subject at a particular academic level 学术层次 [与“读者对象”的关系?]
To what extent the author is an authority on the topic at hand 作者权威性
For a particular class of people 读者对象
Is a particular genre or of a particular literary nature 文献类别
When the particular subject took place 时代
What can be done with the document 用处
How others benefited from using the document 评论、评级
What kind of experience the user gets from the document 用户体验(惊恐故事、悲伤图片、笑话、心碎诗歌等)

作者设想的未来联机目录原型的主题存取功能举例 (Building the Future Online Catalog Now):
★ 排序算法,给元数据记录中的摘要数据如题名、主题、分类号与限定元数据以最高权重,确保排序输出的准确
★ 相关反馈(即“发现更多类似”)机制,给予题名、主题、分类号与限定元数据以比数字化正文中的词与词组更高的权重
★ 用户想在目录检索结果简单显示表中看到的数据元素
★ 用于限定的文献属性,使检索更相关,与用户的智力水平一致
★ 限定属性选择机制,易于检索者理解与使用
★ 用于检索、排序、相关反馈与显示的引用数据的作用
★ 显示与处理全文的能力,如检索、导航、重点显示、加注释、页边加注、与他人共享等
★ 标记元数据(加标签)机制,鼓励用户参与
★ 将联机目录集成到更大的通用信息搜寻场所——Google及互联网,期刊搜索、搜索不可见WEB、机构库搜索等

作者认为OPAC功能的改善也需要2.0
    以前图书馆界的决策由少数关键人物、咨询机构或专业学会作出,现在已不应当再这样了。首先,有这样的技术,能够在决策阶段让更多人有更大参与度(inclusive);其次,我们面对着不确定的未来,需要经历一个转变,从将少数大机构及其馆藏、权威与人员看法放在首位,转向需要所有参与者的联盟。第三,成功实施共享的、基于技术的决策,能够在本领域中树立未来决策的标准,并鼓舞其它领域采用这一方法。

作者的结论
    是否采用她的上述设想并不重要,重要的是重新思考图书馆编目与联机目录,关注联机目录的未来。要抢大规模数字化项目结束前,让所有感兴趣的团体参与严肃的对话、设计原型系统、作出决策,使未来的联机目录有稳固的基础。
    最后一句话:Should we fail to act until all the books are digitized and the copyright problems are solved, the last person to leave to digitization workroom may be turning off the lights on the library.

    文章表达了很多人近年感受到的Google等大规模数字化项目的压力,以及由此对改进OPAC的紧迫感。问题是,OPAC所能揭示的内容,如文中书所述,最大限度也不过文本的1/30——再长就不是OPAC,而是全文检索系统了。即使在大规模数字化结束、版权问题解决之前,将OPAC改造得尽善尽美了,图书馆的灯就能长明吗?基于全文的数据挖掘技术在不断的进展中,未来还需要OPAC吗?
    乐园恐怕难以失而复得,或许对OPAC的所有改进只不过是苟延残喘,站好最后一班岗;再令人兴奋的新功能,也不过是给猪抹口红(
Roy Tennant),一番化妆打扮后,还是要送到屠宰场的。