使用机器学习消除重复书目数据

对于联合目录，除编目员实时提交书目记录及馆藏信息，还会有各种批量导入数据（如各馆的回溯记录、在版编目记录、电子资源记录等），拒绝并消除（合并）重复数据是一项长期而艰巨的任务。数十年来，MARC格式和编目规则发生了多次变化，去重并不能简单地通过字段+字符的比对完成。

OCLC的WorldCat作为世界上最大的图书馆联合目录，目前收录书目记录近5.6亿条（https://www.oclc.org/en/worldcat/inside-worldcat.html），其中自不可避免有大量重复记录。

2023年8月19日，OCLC利用机器学习消除重复书目数据，通过算法处理100万条记录（500,000 对），合并WorldCat中500,000条重复记录合并，以期改善图书馆员工和最终用户的编目、检索和馆际互借体验。

见OCLC新闻：Leveraging machine learning technology as part of ongoing WorldCat quality measures. 2023-8-14.

OCLC研究部博客有更详细介绍，以下为摘译：

Machine Learning and WorldCat: improving records for cataloging and discovery /Jenny Toves.Hanging together, 2023-8-14.

OCLC自1980年代初开始手工删除重复记录，1990年代引入自动化流程“重复检测和解决”（Duplicate Detection and Resolution, DDR）。目前，平均每月手动删除 11,000 条记录，通过自动化删除 100万条记录。此外，每个月都会将数百万条新摄取的记录合并到现有的WorldCat记录中，也要避免新增重复记录。

2022年初，OCLC数据科学团队开始研究使用机器学习（ML）来识别WorldCat中的重复记录，即“基于样本数据（称为训练数据）构建模型的算法，以便在没有明确编程的情况下做出预测或决策”。

ML查看训练数据（标有正确答案的数据），并找出数据标记为保留或合并/删除的原因。然后，它将“学到”的知识应用到新的数据集上，ML会提供一个它认为被准确标记的百分比。如果ML可以通过DDR识别其他重复项，则可以通过我们的标准解决流程删除这些重复项，从而确保保留适当的记录。研究了不同的ML算法，但更重要的障碍是收集一组训练数据集以运行所选算法。

【标记训练数据】数据科学团队联系了数据质量团队以寻找数据集……让我们的成员参与到这个过程中来，就像许多人对手动重复数据删除所做的那样……要求成员图书馆（即编目专家）审查ML模型认为重复的记录对，并将它们标记为重复。

【标记界面】显示选择选项和正在分析的两条记录是否重复。该界面允许用户检索一对可能重复的书目记录，可以通过选择编目语言、资料类型和记录年龄的值来生成对。屏幕出现一对可能重复的记录，黄色表示两个字段之间存在差异，绿色表示字段完全相同；无底色表示该字段仅存在于其中一条记录中。用户要求选择这两条记录是否描述同一东西，可回答是、否或不确定。用户还可选中字段旁边的复选框，表明该字段与上述决定相关。

该工具包含两万对记录，目标是让每对由不同的审阅者审查三次。2022/12-2023/4期间共评估超过34,000对潜在的重复记录。虽然不是每对都有三条评审，但收集了大量数据来训练ML模型。我们发现，在收到多条评审的配对中，超过95%的评论者之间没有分歧。这表明该模型在识别重复项方面与人类相当。这些数据用于完善模型，数据质量团队审查了新结果的准确性。