从联合目录到融合目录

香港中文大学五十周年,5月底主办“第三届学术图书馆馆员国际学术会议”,名为“求同存异 动静阴阳 未来联校图书馆之合作与竞争”,专注于图书馆联盟相关话题:
主题1──学术图书馆联盟的管治:平衡、优先次序和评价
主题2 ──合作性的馆员培训:优点、陷阱和最佳典范
主题3──存取和储存共享纸本及数码馆藏的尖端方法:开放还是封闭的系统
主题4──集中统一馆藏管理和技术服务:不可避免或可以避免?

香港中文大学张宝珍和刘丽芝的报告,介绍该馆电子书编目批处理情况,尤其详细介绍了与CALIS联合目录合作,获取超星电子书MARC数据。
From union catalogue to fusion catalogue: how collaborative cataloguing might be initiated and implemented in the Hong Kong context (PDF链接)

香港中文大学图书馆目录和CALIS联合目录,在采用的编目规则、主题词表、分类法、MARC格式、编目语言上均不相同。但在数据处理过程中,除了转换CNMARC到MARC21之外,他们确定的基本原则是:尽可能接受CALIS的数据,允许混合的编目语言(换言之接受中文)。在2010年10月到2011年9月的一年间,历经评估、测试、转换、修改到实施批处理,完成了需要的70多万条记录。得到的记录强化了名称规范与主题及其他信息。

对于“融合目录”,报告人如此说明(p.16):
– 过去:
— 依据统一的编目实践
— 喜欢书目记录高度一致
– 现在:
— 引入采用不同编目规则和不同完整级别的供应商记录
— 接受“最小级记录比根本没有记录对图书馆用户有利”

对于上述变化,报告人的总结是:
– 经验1:变化是必然的 (p.20)
— 理想:完全遵照单一编目标准及本地惯例
— 现实:不同编目数据集混杂在一起
— 对用户来说,直接、即时获取所需图书馆资源,比标准编目记录更重要
– 经验2:妥协是必需的 (p.21)
— 同意尽可能保留CALIS原始数据,仅在“充分且必要”时才做修改
– 经验3:协作是可能的 (p.22)
— 当接受变化,编目员愿意接受编目实践上的差异
— 接受大学教育资助委员会(UGC)资助且订购超星数字图书馆的大学图书馆,可以协作强化批处理的电子书MARC记录

all things cataloged博主对此的评论是:
“RDA即将来临,遗留数据将与新数据并列,还有按不同RDA政策决定(交替/可选、编目员判断)创建的数据。如果联盟及/或全球共享编目继续,我们最终将不得不告别我们相当封闭的世界观,接受非统一的、经混合的书目信息。”

——虽然报告标题是“从联合目录到融合目录”,但所谓“融合目录”并非联合目录的替代或升级,这里的“联合目录”或许只是提示来自联合目录的数据。
——如同两位报告人说的,包含不同编目标准数据的“融合目录”就是现实(我们这里也一样),不是由个人可以避免或改变的。
——并且,未来肯定不会仅限于电子资源记录。

via all things cataloged: From union catalog to fusion catalog (2013-6-7)(有墙)

阅读推荐算法

英国Huddersfield大学的Dave Pattern (“Self-plagiarism is style”博主,Library Journal 2009年度人物Movers and shakers),早在七年前就在自家OPAC(Horizon系统)实上现了借阅推荐:people who borrowed this, also borrowed…。这是他当年的介绍(写博文时应该还在设想阶段):
using “circ_tran” to show borrowing suggestions in HIP (Nov 17th, 2005)

差不多一年前,他又写了一篇更详细介绍实现推荐借阅的博文,不仅仅是推荐流通次数多的,而且推荐那些流通次数不那么多的──长尾部分更应该推荐。因为他发现通常按借阅次数的推荐方式,不但被推荐的是本来就比较流行的,而且总是相对泛但不那么专的图书,比如给一本MySQL的书推荐的通常是关于数据库的,而非专门讲MySQL的:
Sliding down the long tail (Mar 23rd, 2011)
本篇我曾向同事推荐过,可操作性很强(无论对长尾还是按总流通量的一般推荐)。博文下某人留言抱怨没给代码,博主回复说,只需要二个数据库表──一个放借阅历史(即借者ID和图书ID),一个放每本书的总外借量,准备好后代码自然就有了。

今天看到他在设想将推荐扩展到电子资源了,基于同样的算法,数据则来自图书馆集成系统(借阅历史)、链接解析器及EZProxy日志:
“People who looked at this thing, also looked at this stuff…” (Feb 19th, 2012)
他基于一个5百万条记录的数据库(70%是借阅记录,其余是期刊访问),做了一个简单的原型:http://library.hud.ac.uk/australia/perl/test/rec2.pl
可以点击左上角的pick random item,看看不同的推荐结果,光标移在题名上显示的数字是[同使用人数/总使用次数]──起点可能是期刊、也可能是图书,被推荐的左栏是期刊,右栏是图书,不一定都有结果。

[update 2012-2-25] Dave又补充了针对学科/课程做限定的设想,使推荐更有针对性:
More “stuff like this”… (Feb 21st, 2012)

附记:关于推荐的隐私问题
推荐基于读者ID的同现,但并不泄露具体的ID。通常有较多读者使用才会得到推荐(即使是考虑长尾,也是针对“同使用人数/总使用次数”较大的情况),并不能由此推测出具体是哪些读者。

eXtensible Catalog (XC) 进展

eXtensible Catalog (XC) 是一个开源的新一代发现服务软件。其在2006年宣布开发之时,正值OPAC前端/发现服务兴起,这些年,看着一个又一个开源OPAC前端发布,XC似乎一直在开发中。XC积极参与FRBR、RDA相关活动,特别引人注目的是RDA工具套件发布时,资源部分唯一链接的相关软件就是XC;而2011年6月发布的RDA美国测试报告中,附录中比较特别的是XC的反馈。尽管有种种动作,但感觉是只听楼梯响、不见人下来──其实是自己忽略了一些信息。
作为一项开源软件,XC开发从一开始就受到安德鲁·梅隆基金的支持,2006年得到启动资金$28.3万,2007年得到后续资金$74.9万,2009年又得到$17.5万,合计超过$120万(从Library Technology Guide搜索的结果)。2011年,项目共同创办者CARLI(伊利诺伊学术与研究图书馆联盟)再获$10万,用于支持XC软件中“元数据服务工具包”的开发(Andrew W. Mellon grant awarded to CARLI for MST development)。

XC作为一个发现工具,集成OPAC是最基本的,因而不可避免与ILS厂商及产品打交道。在2008年与开源ILS服务商LibLim、2009年与Serials Solutions宣布合作,在2010年时完成了针对III的Millennium和ExLibris的Aleph、Voyager的MARC抽取脚本,XC NCIP工具包2011年3月发布为资源共享的SirsiDynix Symphony连接件,以及为资源发现的Ex Libris Voyager连接件。目前支持主要ILS应当没有问题。

XC应该在2010年已经发布了全套软件供下载,包括3个部分4个工具包:
1、用户界面
Drupal工具包
2、元数据管理
元数据服务工具包:处理与集成元数据 [据称支持图书馆目录、机构库和网站资源,使用可FRBR化的XC Schema代替MARC]
3、图书馆集成系统连接
OAI工具包:在大部分ILS与XC间同步MARC元数据
NCIP工具包:连接ILS流通系统与XC [即时获取馆藏状态]

2011年开始XC已经有了两个用户,不过开发者罗切斯特大学及后来加入的创建者北卡大学尚不在其中:
2011年3月,Lehigh大学成为首家XC NCIP工具包的实施用户,在其新发布的资源共享系统E-ZBorrow与其自动化系统Symphony间实施流通功能。
2011年6月,日本九州大学发布Cute.Catalog(始于2010年),包括图书馆馆藏及本校师生学术成果的综合元数据。与Serials Solutions的Summons发现界面共同构成新的发现平台。(也就是说,本地内容不提交Summons──发现平台最令人头痛的就是本地数据同步)。

2011最新出版图书“Scholarly Practice, Participatory Design and the eXtensible Catalog”的第一章对XC有较全面的介绍。新鲜出炉,提供PDF免费下载
Scholarly practice, participatory design, and the eXtensible catalog / Nancy Fried Foster … [et al.], editors. ISBN 978-0-8389-8574-8

[update 2012-5-24] Jada书社会日志:为关联数据准备的图书馆软件(从MARC到RDA到Linked Data)——eXtensible Catalog (2012-5-24)
有4个工具包图示,并说明XC如何支持关联数据,结论是“XC已经在方案和模型上做出了迎接关联数据的准备,接下来就差把XC的元数据发布成RDF格式了”。