相互外包+书目数据批处理(2019ALA年会CaMMS编目相关报告选介)

ALA旗下有11个协会,与编目直接相关的是“图书馆馆藏和技术服务协会”(ALCTS)旗下5个部之一的“编目和元数据管理部”(CaMMS),其下有10个兴趣小组。2019年美国图书馆协会(ALA)年会召开在即(2019.6.20-25),查CaMMS竟然有19个分会场——感觉光看介绍也看不过来。在邮件组中看到一些介绍,分享三个分会场中有借鉴意义的报告信息,归纳为2种,其一小语种编目“相互外包”,其二利用各种工具批量处理书目数据(包括去重、增强等)。

其一是一个实例“相互外包”(Homegrown Outsourcing):杜克大学与北卡罗来纳大学教堂山分校相互为对方进行非罗马文字资源编目,测算结果是比厂商外包更具成本效益、更高质量。——小语种编目在我国也是难点,语种太多,图书馆基本上不可能有熟悉每种语言的编目员,各馆在小语种编目上按语种互补的方法,值得探索。
相互外包:杜克大学与北卡罗来纳大学教堂山分校的合作编目试点(Homegrown Outsourcing: A Cooperative Cataloging Pilot Between Duke University and the University of North Carolina at Chapel Hill)
2017年,三角研究图书馆网络馆藏委员会(Triangle Research Library Network Collections Council)批准了一项试点项目提案,该项目将审查与厂商外包相比,非罗马文字资源的网络内合作编目的后勤、工作流程、效率、成本和效益。2018年1月,项目经理制定了一个项目章程和后勤计划,北卡罗来纳大学为来自杜克大学的100种阿拉伯语书进行编目,而来自北卡罗来纳大学的100种日语书将在杜克大学编目。项目经理跟踪他们花在编目上的时间,以及选择和准备装运书籍、接收编目书籍以及将记录导入每个机构的ILS所花费的时间。当项目于6月底完成时,将这些数据与杜克先前收集的外包数据进行比较,以确定项目的成本和效益。该试点表明,在每种的成本基础上,当没有内部语言专家时,网络内编目是一种比供应商外包更具成本效益的解决方案,还有更高质量的编目。我们希望我们的项目能够激励其他图书馆联盟寻找网络解决方案,以便对需要专业知识的资源进行编目。

其二是各种免费书目数据处理工具的使用,不会编程的可以使用专用软件MarcEdit、通用软件Excel或OpenRefine,会简单编程的可以用Python等。多个报告涉及: 
(1)这个要写代码,可能需要有点基础:
编目员编码:一种实用的编程方法(Coding for Catalogers: A Practical Approach to Programming )
虽然许多编目员发现编程的想法令人生畏,但学习如何自动化可以赋权、有效甚至有趣!在本次演讲中,Stony Brook大学编目和元数据服务主管Carolyn Hansen将演示编程如何使您作为编目员的生活更轻松。使用现实生活中的示例,演示文稿将描述常见和可获取的语言,如Python和Ruby,以及shell脚本和其他自动化工具,如XSLT和正则表达式。还将介绍流行的工具和软件,如GitHub、MarcEdit和Atom,以及培训资源和策略。

以上2个报告来自:Cataloging Norms Interest Group (ALCTS CaMMS) 
以下3个报告来自:Catalog Management Interest Group (ALCTS CaMMS) 

(2)使用MarcEdit、OpenRefine、Excel和Python批量处理电子资源元数据:
批量工作是否意味着牺牲质量元数据? MarcEdit、OpenRefine、Excel和Python等工具如何帮助改善访问和发现(Does Working in Batch Mean Sacrificing Quality Metadata? How tools like MarcEdit, OpenRefine, Excel, and Python can help improve access and discovery) 
批量处理电子资源的元数据意味着处理不同质量的记录。常见问题包括各种情况下的品种、缺少信息如出版、URL或固定字段数据,缺乏本地最佳实践所需的信息,或者供应商和/或OCLC号不一致。这些问题可能令人生畏,并且涉及大量清洗,这可能会减慢批处理速度或使其无效。为了帮助处理记录的品种集,马萨诸塞大学阿默斯特分校元数据馆员Jennifer Eustis开始使用一套工具,包括MarcEdit、OpenRefine、Excel和Python。这些工具可帮助解决常见问题并批量实施本地实践。结果是更好质量的元数据记录,便于访问和发现。演讲将重点介绍如何使用这些工具和示例。希望与会者可以从这些示例中学习并在他们自己的批处理中使用这些工具。
 
(3)使用OpenRefine对供应商记录进行品种级去重(Title-level De-Duplication of Vendor Records Using OpenRefine)
加州大学圣地亚哥校区Elizabeth Miraglia介绍该馆参与了个由用户驱动的采购项目,通常依靠供应商提供的记录在其目录中用于发现。在两家大型电子书供应商合并之后,发现在一个特定的DDA池中有大量内容,这些内容重复已经在其他地方许可或在另一个DDA或EBA项目中存在的内容。选择者希望删除重复内容,以防止购买实际上不想要或不需要购买的品种。但是,由于供应商记录的质量不同,并且通常不包括OCLC号,因此重复数据删除必须在品种级别进行,并且在过去是不可能的。在几个月的时间里,加州大学圣地亚哥分校的元数据工作人员开发了一个使用OpenRefine来比较和去除DDA品种与许可内容的过程。能够为采购团队提供标识符,用于停用供应商平台中的品种,并创建更清晰的目录。此外,估计图书馆最终节省了大量资金,并阻止了大约1,000次重复购买。本演讲将概述开发的流程以及如何将其重新用于小规模项目和一些持续维护。 

(4)利用Discogs众包音频记录元数据,通过OpenRefine和Python脚本组合,增强原有MARC记录:
使用MARC记录连接众包音频记录元数据(Connecting Crowdsourced Audio Recording Metadata with MARC Records )
几年前,大量LP唱片编目时没有指定任何音乐类型或风格元数据。为了改进这些LP的发现,杨百翰大学IT副馆长Brian Rennick介绍正在进行一个项目,以从Discogs用户构建的音乐数据库中提取元数据。强化项目使用OpenRefine和Python脚本的组合进行批处理。成千上万的Discogs志愿者为超过1100万个录音提供了高质量的元数据。Discogs XML数据在CC0不保留版权许可下免费提供,且已经证明适合于在图书馆目录中为音频记录添加流派和风格元数据。本演示文稿将分享迄今为止从项目中学到的经验教训,并将描述用于将MARC记录与Discogs数据进行匹配的技术和算法。 

(5)强大的MARC编辑工具:在邮件组推送中被称为 ALCTS CaMMS Forum 的 MarcEdit 专场,由CaMMS和PCC联合主办: 
MarcEdit的过去、现在和未来MarcEdit: Past, Present, and Future)  
2019年是MarcEdit开发20周年,MarcEdit是免费提供的元数据转换和编辑工具套件。本次会议将重点介绍MarcEdit对编目员工作的影响以及开发人员与用户社区之间的独特合作关系。
MarcEdit的开发者Terry Reese是主讲人。Terry将分享对开发过程的一些反思,以及他如何与编目社区合作以响应编目员的需求。Terry还将分享他对MarcEdit未来发展的看法。
MarcEdit使得能够以改变编目环境的方式处理元数据成为可能。OCLC的Bryan Baldus和阿克伦大学的Mike Monaco将介绍他们使用MarcEdit完成以前无法完成的工作的方式。

旧文录(1994):赴外人员利用美国图书馆的障碍及对策

文前说明本文前半部分介绍一个调查,后半部分分析对策,最后一段特别针对国内图书馆员可以向赴美人员提供的帮助。感觉挺有针对性的,虽然是纸上谈兵,并未实践过。
原调查的背景在1990年代初,可以了解当时的状况:图书馆计算机与网络应用兴起不久,卡片目录仍与联机目录(OPAC)共存,纸质的检索工具书还没有被电子数据库取代(国际联机检索系统如Dialog等使用过于昂贵、新兴的光盘尚未普及)。已经有自助服务(文中译为“自我服务”),主要是自助复印(在我国要到21世纪才逐渐流行)。

出处:胡小菁.赴外人员利用美国图书馆的障碍及对策.图书情报信息(华东师范大学图书馆),1994.11:11-13(第47期)】

---------赴外人员利用美国图书馆的障碍及对策---------
美国加州大学伯克利分校图书馆与信息研究学院博士生刘子明(译音),为了解来自发展中国家的学生利用美国图书馆的情况,访问了自然科学、人文和社会科学专业的45位外国学生,包括博士生、硕士生和大学生。访问中提出的问题包括外国学生以前的图书馆经验与学术环境,使用美国图书馆的经验,解决问题的策略,以及对改进图书馆服务的建议。
根据刘的调查,外国学生遇到的困难有以下几个方面:
一、语言障碍  尽管外国学生入学前通常都必须通过TOEFL,但对于在美国学习,他们的词汇量仍不足,其中包括图书馆方面的术语。因而他们不能完整准确地理解图书馆的规定与使用程序,图书馆为他们提供的入学参观活动也常因不能完全听懂而影响其效果。交谈能力有限,加之缺乏对图书馆员的信任感,使得他们在遇到问题时常常只能求助于同胞。
二、图书馆制度差异  美国图书馆的工作方式与大多数发展中国家不同:1. 借书,由于习惯于闭架方式,有40%的学生在去美第一年中不熟悉开架借书;2. 还书,由于没有还书手续,部分学生很顾虑把书放在还书箱中,怕被认为书没有还;3. 参考咨询,由于缺乏英语交谈能力、在本国又不曾注意到参考服务,许多人极少作参考咨询;4. 自我服务,在许多发展中国家自我服务根本不存在,因而学生不能有效地使用复印机,有60%的学生在第一或第二次复印后把复印卡忘在了机器中。
三、不熟悉国会图书馆分类法(LC)或杜威十进分类法(DDC)以及国会图书馆标题法(LCSH)  不同国家使用不同的分类法,而在美国普遍使用LC或DDC。另一方面,学生们多习惯于按书名而不是主题检索。好在一些联机目录提供书名关键词检索,可以解决一些问题。
四、目录  超过70%的学生认为使用卡片目录比本国容易,因为以字顺排列;过一半学生发现使用联机目录并不困难,因为每个终端边上都有一本指南。大学新生认为数据库检出太多内容时很为难,因为不知道如何选择一本合适的书;而博士生则认为情愿检出结果多而不希望太少,因为这样他可以了解有关领域的几乎所有重要著作。
五、不熟悉检索工具书  大多数自然科学的研究生在入美前就已使用过检索工具书,如《生物学文摘》(BA)、《化学文摘》(CA)、《工程索引》(Ei)等。而社会科学学生对美国的检索工具书则一无所知。为克服这一困难,一些人只能从引文入手查找相关文献,这样做很可能会遗漏一些重要文章。

从刘的调查及我国图书馆的实际状况,我们能在很大程度上了解我国赴外人员利用美国图书馆的障碍。对此,将赴美深造的我国学生和访问学者,以及可以向他们提供服务的我国图书馆有关人员,应当采取有效的行动,力争使赴美学生和学者在出国前清除或缓解这些障碍,以使在美国的学习和工作有一个良好的开端。
对赴美人员来说,应当注意改善以下几个方面。首先,无疑是英语能力,英语越好,就越容易介入美国文化、并进一步改善英语能力,而这两者对外国人在美国获得学术上的成功及获取美国人的鼓励与关心都是基本的。其次,在出国前,应该了解使用美国图书馆可能遇到的困难,在思想上有所准备,避免在陌生环境中的挫折感。可以向归国人员了解美国图书馆的借阅制度、还书形式、缩微阅读机和复印机使用、联机目录的查找方法等,增加感性认识。国内图书馆多半都有各种形式的参考咨询,可以从中了解参考馆员能够提供的服务,赴美后遇问题再请求参考馆员加以帮助就不会觉得很困难了。第三,通过阅读一些图书馆方面的有关书籍,掌握简单的分类与主题知识,了解查全或查准相关文献的策略。第四、掌握工具书的使用,这是在国外进行研究的基本手段。国内文理科重要的检索工具书都有收藏,可以满足大部分的检索需要。国外这方面的工具书还更多些,但基本检索原理还是一样的,只要在国内掌握了查找工具书的基本方法,就可以一通百通。
由于熟悉中外图书馆的情况、掌握各种图书馆专业知识,以上的四个方面图书馆员都可以提供帮助。比如,有针对性地编制英汉对照的图书馆术语集,并对美国图书馆中常用而与我国情况不同的术语作出详细解释,向出国人员提供;向出国人员提供一些基本的分类与主题知识,以及LC、DDC与我国图书分类法的大致对照,LCSH的标引方法等等;讲解检索工具书的一般结构、形式、编排、使用方法,以及常用的社会科学与自然科学检索工具书的内容范围,并传授有关使用经验。从形式上,既可以开办讲座,也可以个别辅导,还可以编制有关利用美国图书馆的书籍或小册子,使之象词典一样,成为赴美学者与学生的必备工具。


【文后说明】重读旧文,发现一个很严重的缺陷:没有标注参考文献。原调查文章题名是什么?发表在哪里?旧文重发,必须得查出来。好在有Google Scholar,搜索关键词取作者姓名+图书馆+发展中国家=ziming liu libraries developing countries(没用美国,因为不确定是US还是America),第1个检索结果就是,还能获取原文:
Ziming Liu. Difficulties and characteristics of students from developing countries in using American libraries. College & Research Libraries, January 1993.【期刊官网原文链接