使用机器学习消除重复书目数据

对于联合目录,除编目员实时提交书目记录及馆藏信息,还会有各种批量导入数据(如各馆的回溯记录、在版编目记录、电子资源记录等),拒绝并消除(合并)重复数据是一项长期而艰巨的任务。数十年来,MARC格式和编目规则发生了多次变化,去重并不能简单地通过字段+字符的比对完成。

OCLC的WorldCat作为世界上最大的图书馆联合目录,目前收录书目记录近5.6亿条(https://www.oclc.org/en/worldcat/inside-worldcat.html),其中自不可避免有大量重复记录。

2023年8月19日,OCLC利用机器学习消除重复书目数据,通过算法处理100万条记录(500,000 对),合并WorldCat中500,000条重复记录合并,以期改善图书馆员工和最终用户的编目、检索和馆际互借体验。

见OCLC新闻:Leveraging machine learning technology as part of ongoing WorldCat quality measures. 2023-8-14. 

OCLC研究部博客有更详细介绍,以下为摘译:

Machine Learning and WorldCat: improving records for cataloging and discovery /Jenny Toves.Hanging together, 2023-8-14.  

OCLC自1980年代初开始手工删除重复记录,1990年代引入自动化流程“重复检测和解决”(Duplicate Detection and Resolution, DDR)。目前,平均每月手动删除 11,000 条记录,通过自动化删除 100万条记录。此外,每个月都会将数百万条新摄取的记录合并到现有的WorldCat记录中,也要避免新增重复记录。

2022年初,OCLC数据科学团队开始研究使用机器学习(ML)来识别WorldCat中的重复记录,即“基于样本数据(称为训练数据)构建模型的算法,以便在没有明确编程的情况下做出预测或决策”。

ML查看训练数据(标有正确答案的数据),并找出数据标记为保留或合并/删除的原因。然后,它将“学到”的知识应用到新的数据集上,ML会提供一个它认为被准确标记的百分比。如果ML可以通过DDR识别其他重复项,则可以通过我们的标准解决流程删除这些重复项,从而确保保留适当的记录。研究了不同的ML算法,但更重要的障碍是收集一组训练数据集以运行所选算法。

【标记训练数据】数据科学团队联系了数据质量团队以寻找数据集……让我们的成员参与到这个过程中来,就像许多人对手动重复数据删除所做的那样……要求成员图书馆(即编目专家)审查ML模型认为重复的记录对,并将它们标记为重复。

【标记界面】显示选择选项和正在分析的两条记录是否重复。该界面允许用户检索一对可能重复的书目记录,可以通过选择编目语言、资料类型和记录年龄的值来生成对。屏幕出现一对可能重复的记录,黄色表示两个字段之间存在差异,绿色表示字段完全相同;无底色表示该字段仅存在于其中一条记录中。用户要求选择这两条记录是否描述同一东西,可回答是、否或不确定。用户还可选中字段旁边的复选框,表明该字段与上述决定相关。

该工具包含两万对记录,目标是让每对由不同的审阅者审查三次。2022/12-2023/4期间共评估超过34,000对潜在的重复记录。虽然不是每对都有三条评审,但收集了大量数据来训练ML模型。我们发现,在收到多条评审的配对中,超过95%的评论者之间没有分歧。这表明该模型在识别重复项方面与人类相当。这些数据用于完善模型,数据质量团队审查了新结果的准确性。

OCLC编目培训:虚拟AskQC办公时间

OCLC的WorldCat元数据质量团队举办的免费网上活动 Virtual AskQC Office Hours (VAOH),每月一个相关话题(2个不同时间、相同内容,每次1小时),很好在线编目培训资料:

AskQC https://help.oclc.org/WorldCat/Metadata_Quality/AskQC

AskQC 即 Ask Quality Control(询问质量控制),可以发送邮件到 AskQC@oclc.org,向OCLC元数据质量人员发送有关编目政策、标准和实践的问题。

从网页看,VAOH始于2018年,内容结合实践发展,有与OCLC相关的,也有通用的。比如2018年1月话题是:260字段到264字段的转换

参加活动需注册,结束后,录像、PPT、问答(AskQC office hour member Q&A)、活动中提及资源网址(AskQC office hour URLs),都会上网,可以很方便地利用。

  • 即将举行的2024年3月话题:面向门外汉的乐谱编目(Music Score Cataloging for the Uninitiated)

你对乐谱编目的经验太少吗?但预计你会对越来越多的积压乐谱进行编目?你从未学会阅读乐谱,一想到要把乐谱编目,你会害怕吗?OCLC与音乐图书馆协会和音乐OCLC用户小组的联络人Morris Levy将主持此次会议,会议将包括音乐编目资源的概述、相关MARC领域的回顾以及古典音乐和流行音乐的例子。

2024年上半年其他几次的话题分别是(1-2月资料已经上网):

  • 1月,阅读LC规范记录(为使用LC名称和主题规范文件的非NACO编目员设计)
  • 2月,CIP记录的生命周期(关于美国国会图书馆在版编目)
  • 4月,PCC和OCLC:概述和新功能(就使用BIBCO记录进行讨论)
  • 5月,谁是您的受众?目录记录受众的方法(介绍521和385等MARC字段、定长字段值以及记录这些信息的好处)
  • 6月,定制MARC记录、使用Collection Manager交付(生成WorldCat更新记录)

2024冬BIBFRAME更新论坛

BIBFRAME发展到2024年,美国国会图书馆(LC)正式应用已近在眼前。业内前些年已经开始关注各家BIBFRAME应用的差异,某次会议多个报告人探讨以哪家应用为基点实现互操作,其中之一自然是LC。本次BIBFRAME更新论坛,LC关注“标准化”,罕见地只选择艾利贝斯(ExLibris)和OCLC两家报告,似乎是为推动以LC的BIBFRAME为“标准”以达成互操作。

BIBFRAME January 2024 Update Forum. 2024-1-22. https://www.loc.gov/bibframe/news/bibframe-update-jan2024.html

会议列出ExLibris报告2个、OCLC报告1个,但PPT只有两家各1个。

两家共同的态度是继续支持MARC。艾利贝斯比较隐讳,称“支持包括BIBFRAME在内的多种格式”;OCLC比较直接,称“在MARC和BIBFRAME之间无缝工作”。

一、Sally McCallum在开场中通报了LC的两个更新

其一,B2M/M2B转换2.5版:LC前一周发布新版BIBFRAME-MARC和MARC-BIBFRAME转换【网站上没看到2.5版更新情况说明】

其二,示例:正逐步添加到BIBFRAME本体规范的属性和类中【List View可以看到已添加不少示例,应该也为展示LC在本次论坛介绍中所提出的“标准BIBFRAME”】

二、ExLibris报告:解锁连接:关联开放数据和BIBFRAME如何为图书馆用户带来好处 Unlocking Connections: How Linked Open Data and BIBFRAME can Benefits Library Users / Chani Yehuda, Itai Veltzman. 22 slides.

支持互操作

  • [1]发布:导出为BIBFRAME;发布到OCLC。
  • [2] API:BIBFRAME作品和实例;与Sinopia集成。
  • [3]全球来源:LC,WIkidata,ORCID,更多……。
  • [4] 知识图谱:由Alma导出目录到机构知识图谱。

2024-2025年关联数据路标

  • 2024上半年,测试托管自己的Sinopia实例(2024年5月,SINOPIA编目接入Alma系统)
  • 2024年下半年,在Primo和Alma中,基于LC和Wikidata,添加新的信息卡(Info Card)和个人页(Person page);扩展关联数据强化处理,由现有规范到编目工作流程。添加外部查找功能到元数据编辑器(Meadata Editor)中的编目工作流程。
  • 2025年,集成本地目录到外部知识图谱系统;能够搜索作品及其实例。

三、OCLC报告:OCLC为BIBFRAME所做的准备 OCLC’s preparation forBIBFRAME / Jeff Mixter. 9 slides.

  • [1]标识符:将WorldCat实体URI添加到WorldCat记录中:个人、地点和事件2023年12月,作品2024年1月底起(创建将在工作流程中使用的全局标识符)
  • [2]工具:2024年1月底,WorldShare Record Manager集成WorldCat实体查找和URI插入编目工作流程(弥合传统记录和关联数据框架之间的差距,实现数据的无缝创建和管理)
  • [3]导入/导出:已发布向OCLC提供BIBFRAME 2.0数据的文档(Prepare your BIBFRAME)https://help.oclc.org/Metadata_Services/WorldShare_Collection_Manager【希望采用美国国会图书馆在其编辑器 MARVA 中使用的序列化方式Concise Bounded Description (CBD)
  • [4] BIBFRAME风格:评估了LC、Share-VDE和瑞典国家图书馆的BIBFRAME,适应BIBFRAME 2.0模型的不同风格(图书馆员可以以尽可能高的保真度共享和交换数据)

另参见:2024年1月30日OCLC新闻,关于OCLC 将 WorldCat 实体标识符添加到 WorldCat 记录中,并将关联数据功能集成到图书馆已使用的编目服务中