相互外包+书目数据批处理(2019ALA年会CaMMS编目相关报告选介)

ALA旗下有11个协会,与编目直接相关的是“图书馆馆藏和技术服务协会”(ALCTS)旗下5个部之一的“编目和元数据管理部”(CaMMS),其下有10个兴趣小组。2019年美国图书馆协会(ALA)年会召开在即(2019.6.20-25),查CaMMS竟然有19个分会场——感觉光看介绍也看不过来。在邮件组中看到一些介绍,分享三个分会场中有借鉴意义的报告信息,归纳为2种,其一小语种编目“相互外包”,其二利用各种工具批量处理书目数据(包括去重、增强等)。

其一是一个实例“相互外包”(Homegrown Outsourcing):杜克大学与北卡罗来纳大学教堂山分校相互为对方进行非罗马文字资源编目,测算结果是比厂商外包更具成本效益、更高质量。——小语种编目在我国也是难点,语种太多,图书馆基本上不可能有熟悉每种语言的编目员,各馆在小语种编目上按语种互补的方法,值得探索。
相互外包:杜克大学与北卡罗来纳大学教堂山分校的合作编目试点(Homegrown Outsourcing: A Cooperative Cataloging Pilot Between Duke University and the University of North Carolina at Chapel Hill)
2017年,三角研究图书馆网络馆藏委员会(Triangle Research Library Network Collections Council)批准了一项试点项目提案,该项目将审查与厂商外包相比,非罗马文字资源的网络内合作编目的后勤、工作流程、效率、成本和效益。2018年1月,项目经理制定了一个项目章程和后勤计划,北卡罗来纳大学为来自杜克大学的100种阿拉伯语书进行编目,而来自北卡罗来纳大学的100种日语书将在杜克大学编目。项目经理跟踪他们花在编目上的时间,以及选择和准备装运书籍、接收编目书籍以及将记录导入每个机构的ILS所花费的时间。当项目于6月底完成时,将这些数据与杜克先前收集的外包数据进行比较,以确定项目的成本和效益。该试点表明,在每种的成本基础上,当没有内部语言专家时,网络内编目是一种比供应商外包更具成本效益的解决方案,还有更高质量的编目。我们希望我们的项目能够激励其他图书馆联盟寻找网络解决方案,以便对需要专业知识的资源进行编目。

其二是各种免费书目数据处理工具的使用,不会编程的可以使用专用软件MarcEdit、通用软件Excel或OpenRefine,会简单编程的可以用Python等。多个报告涉及: 
(1)这个要写代码,可能需要有点基础:
编目员编码:一种实用的编程方法(Coding for Catalogers: A Practical Approach to Programming )
虽然许多编目员发现编程的想法令人生畏,但学习如何自动化可以赋权、有效甚至有趣!在本次演讲中,Stony Brook大学编目和元数据服务主管Carolyn Hansen将演示编程如何使您作为编目员的生活更轻松。使用现实生活中的示例,演示文稿将描述常见和可获取的语言,如Python和Ruby,以及shell脚本和其他自动化工具,如XSLT和正则表达式。还将介绍流行的工具和软件,如GitHub、MarcEdit和Atom,以及培训资源和策略。

以上2个报告来自:Cataloging Norms Interest Group (ALCTS CaMMS) 
以下3个报告来自:Catalog Management Interest Group (ALCTS CaMMS) 

(2)使用MarcEdit、OpenRefine、Excel和Python批量处理电子资源元数据:
批量工作是否意味着牺牲质量元数据? MarcEdit、OpenRefine、Excel和Python等工具如何帮助改善访问和发现(Does Working in Batch Mean Sacrificing Quality Metadata? How tools like MarcEdit, OpenRefine, Excel, and Python can help improve access and discovery) 
批量处理电子资源的元数据意味着处理不同质量的记录。常见问题包括各种情况下的品种、缺少信息如出版、URL或固定字段数据,缺乏本地最佳实践所需的信息,或者供应商和/或OCLC号不一致。这些问题可能令人生畏,并且涉及大量清洗,这可能会减慢批处理速度或使其无效。为了帮助处理记录的品种集,马萨诸塞大学阿默斯特分校元数据馆员Jennifer Eustis开始使用一套工具,包括MarcEdit、OpenRefine、Excel和Python。这些工具可帮助解决常见问题并批量实施本地实践。结果是更好质量的元数据记录,便于访问和发现。演讲将重点介绍如何使用这些工具和示例。希望与会者可以从这些示例中学习并在他们自己的批处理中使用这些工具。
 
(3)使用OpenRefine对供应商记录进行品种级去重(Title-level De-Duplication of Vendor Records Using OpenRefine)
加州大学圣地亚哥校区Elizabeth Miraglia介绍该馆参与了个由用户驱动的采购项目,通常依靠供应商提供的记录在其目录中用于发现。在两家大型电子书供应商合并之后,发现在一个特定的DDA池中有大量内容,这些内容重复已经在其他地方许可或在另一个DDA或EBA项目中存在的内容。选择者希望删除重复内容,以防止购买实际上不想要或不需要购买的品种。但是,由于供应商记录的质量不同,并且通常不包括OCLC号,因此重复数据删除必须在品种级别进行,并且在过去是不可能的。在几个月的时间里,加州大学圣地亚哥分校的元数据工作人员开发了一个使用OpenRefine来比较和去除DDA品种与许可内容的过程。能够为采购团队提供标识符,用于停用供应商平台中的品种,并创建更清晰的目录。此外,估计图书馆最终节省了大量资金,并阻止了大约1,000次重复购买。本演讲将概述开发的流程以及如何将其重新用于小规模项目和一些持续维护。 

(4)利用Discogs众包音频记录元数据,通过OpenRefine和Python脚本组合,增强原有MARC记录:
使用MARC记录连接众包音频记录元数据(Connecting Crowdsourced Audio Recording Metadata with MARC Records )
几年前,大量LP唱片编目时没有指定任何音乐类型或风格元数据。为了改进这些LP的发现,杨百翰大学IT副馆长Brian Rennick介绍正在进行一个项目,以从Discogs用户构建的音乐数据库中提取元数据。强化项目使用OpenRefine和Python脚本的组合进行批处理。成千上万的Discogs志愿者为超过1100万个录音提供了高质量的元数据。Discogs XML数据在CC0不保留版权许可下免费提供,且已经证明适合于在图书馆目录中为音频记录添加流派和风格元数据。本演示文稿将分享迄今为止从项目中学到的经验教训,并将描述用于将MARC记录与Discogs数据进行匹配的技术和算法。 

(5)强大的MARC编辑工具:在邮件组推送中被称为 ALCTS CaMMS Forum 的 MarcEdit 专场,由CaMMS和PCC联合主办: 
MarcEdit的过去、现在和未来MarcEdit: Past, Present, and Future)  
2019年是MarcEdit开发20周年,MarcEdit是免费提供的元数据转换和编辑工具套件。本次会议将重点介绍MarcEdit对编目员工作的影响以及开发人员与用户社区之间的独特合作关系。
MarcEdit的开发者Terry Reese是主讲人。Terry将分享对开发过程的一些反思,以及他如何与编目社区合作以响应编目员的需求。Terry还将分享他对MarcEdit未来发展的看法。
MarcEdit使得能够以改变编目环境的方式处理元数据成为可能。OCLC的Bryan Baldus和阿克伦大学的Mike Monaco将介绍他们使用MarcEdit完成以前无法完成的工作的方式。