使用机器学习消除重复书目数据

对于联合目录,除编目员实时提交书目记录及馆藏信息,还会有各种批量导入数据(如各馆的回溯记录、在版编目记录、电子资源记录等),拒绝并消除(合并)重复数据是一项长期而艰巨的任务。数十年来,MARC格式和编目规则发生了多次变化,去重并不能简单地通过字段+字符的比对完成。

OCLC的WorldCat作为世界上最大的图书馆联合目录,目前收录书目记录近5.6亿条(https://www.oclc.org/en/worldcat/inside-worldcat.html),其中自不可避免有大量重复记录。

2023年8月19日,OCLC利用机器学习消除重复书目数据,通过算法处理100万条记录(500,000 对),合并WorldCat中500,000条重复记录合并,以期改善图书馆员工和最终用户的编目、检索和馆际互借体验。

见OCLC新闻:Leveraging machine learning technology as part of ongoing WorldCat quality measures. 2023-8-14. 

OCLC研究部博客有更详细介绍,以下为摘译:

Machine Learning and WorldCat: improving records for cataloging and discovery /Jenny Toves.Hanging together, 2023-8-14.  

OCLC自1980年代初开始手工删除重复记录,1990年代引入自动化流程“重复检测和解决”(Duplicate Detection and Resolution, DDR)。目前,平均每月手动删除 11,000 条记录,通过自动化删除 100万条记录。此外,每个月都会将数百万条新摄取的记录合并到现有的WorldCat记录中,也要避免新增重复记录。

2022年初,OCLC数据科学团队开始研究使用机器学习(ML)来识别WorldCat中的重复记录,即“基于样本数据(称为训练数据)构建模型的算法,以便在没有明确编程的情况下做出预测或决策”。

ML查看训练数据(标有正确答案的数据),并找出数据标记为保留或合并/删除的原因。然后,它将“学到”的知识应用到新的数据集上,ML会提供一个它认为被准确标记的百分比。如果ML可以通过DDR识别其他重复项,则可以通过我们的标准解决流程删除这些重复项,从而确保保留适当的记录。研究了不同的ML算法,但更重要的障碍是收集一组训练数据集以运行所选算法。

【标记训练数据】数据科学团队联系了数据质量团队以寻找数据集……让我们的成员参与到这个过程中来,就像许多人对手动重复数据删除所做的那样……要求成员图书馆(即编目专家)审查ML模型认为重复的记录对,并将它们标记为重复。

【标记界面】显示选择选项和正在分析的两条记录是否重复。该界面允许用户检索一对可能重复的书目记录,可以通过选择编目语言、资料类型和记录年龄的值来生成对。屏幕出现一对可能重复的记录,黄色表示两个字段之间存在差异,绿色表示字段完全相同;无底色表示该字段仅存在于其中一条记录中。用户要求选择这两条记录是否描述同一东西,可回答是、否或不确定。用户还可选中字段旁边的复选框,表明该字段与上述决定相关。

该工具包含两万对记录,目标是让每对由不同的审阅者审查三次。2022/12-2023/4期间共评估超过34,000对潜在的重复记录。虽然不是每对都有三条评审,但收集了大量数据来训练ML模型。我们发现,在收到多条评审的配对中,超过95%的评论者之间没有分歧。这表明该模型在识别重复项方面与人类相当。这些数据用于完善模型,数据质量团队审查了新结果的准确性。

WorldCat 45周年 & OCLC API访问每天300万

上月OCLC的WorldCat庆祝了它的45周年1971年8月26日,当时名为OCLC联机联合目录的WorldCat在那天接受了来自俄亥俄大学编目员联机编目的133种图书。45年后,WorldCat已收录3.8亿多条记录、涉及世界各国图书馆24亿多件馆藏。资料类型包括图书、连续出版物、乐谱、地图、录音、视频资料、DVD、计算机文档、电子书、数字资源、混合资料等,涉及491种语言文字,其中62%为非英语。看WorldCat记录实时增长(Watch WorldCat Grow),最近加入的是哪条记录,哪个机构上传?

也是在上月,OCLC的API每天点击超过了300万。OCLC在2003年开始Open WorldCat项目,试验结束时每天的点击是4千,已被认为相当成功。之后OCLC开始提供API,目前有十多种,超过4500机构个人申请了API Key,用这些API开发的应用超过了100种。
用得最多的是WorldCat Search API,有超过50种应用,使用机构超过500家,贡献了约一半的点击。
现在甚至可以通过API,用手机向WorldCat提交简编记录,这就是供非馆员使用的Bib It,采用的是WorldCat Metadata API。

Bib It

相关:
OCLC News release: Celebrating 45 years of WorldCat (DUBLIN, Ohio, 26 August 2016)
Next: 3 million knocks on library doors every day (2016-8-3)
参见:OCLC的Open WorldCat计划(2004-10-28)

——— OCLC的Web Service一览Gallery) ———
– Article Exchange API
– Classify
– FAST API
– OpenURL Gateway
– QuestionPoint knowledge base API
– Terminology Services
– VIAF API
– WMS Acquisitions API
– WMS Collection Management API
– WorldCat Basic API
– WorldCat Discovery API
– WorldCat Identities
– WorldCat Metadata API
– WorldCat Recommender Service
– WorldCat Registry
– WorldCat Search API
– WorldCat knowledge base API
– xID API

WorldCat作品集中载体表现数量分布

OCLC一直在用它世界上最大的联合目录数据库Worldcat做“作品”的聚集,从FRBR化的“版本”到“作品”[1-3]。

最近,Karen Smith-Yoshimura在OCLC研究部博客上公布了WorldCat作品集数量的统计结果[4]:在WorldCat共2.07亿个作品集中,80%是单个的(singleton),即只出版过一次——既没有后续版本,也没有译为其他语种;10%出版过2次,4%出版过3次,2%出版过4次,剩下4%出版过5次及以上。用FRBR术语,一个作品出版过1次即有1个载体表现,余类推。
Manifestations per WorldCat Work
从数据看,“5个或以上”载体表现比例虽小,但包括庞大的作品集:包含100个及以上载体表现的作品集有3.1万个,其中最多的是但丁《神曲》,共6875个载体表现载体表现数量排名前10的作品附后,除了《高卢战记》外,都是小说或诗歌。
博文没有公布所有前10作品的载体表现数量。从worldcat.org查询结果看,worldcat.org“版本”汇集的数量与“作品集”汇集结果不尽一致,甚至差别很大,特别如《高卢战记》在worldcat.org中只汇集了4个版本。另外,10部作品中有中文版的仅4种,显然与实际情况不符。或者说明worldcat.org中文数据还差很多,也或者只是“版本”处理不足所致——国内中文数据不重视“统一题名”,对汇集作品相当不利
如果更多语种书目数据进入WorldCat,单个(singleton)所占百分比未必会减少,但最大作品集中包含载体表现数肯定会进一步提高。

由上述数据还可以看到,从出版物(载体表现)角度,有关联的载体表现并非原来印象中仅百分之十几,而是要高得多——百分之十几是在当年作品聚集算法还不成熟时的数据吧。
做一个计算:单个作品的载体表现数=2.07*0.8=1.656亿
截止2015-7-27 WorldCat的书目记录数(载体表现数)=339,356,427约3.393条
只有一个载体表现的比例=1.656/3.393=48.8%
即:有关联的载体表现超过一半——这比例是不是也太高了?哪里算错了?

———- WorldCat作品集Top 10 ———-出版
【括号中为worldcat.org查询结果,链接见原博文】
1. La Divina Commedia by Dante Alighieri 但丁《神曲》【6099,未收录中文版;诗】
2. The Whole Book of Psalmes by John Hopkins, Thomas Sternhold 《(旧约)圣咏集》【5241,英文版为主,3德文版、2不确定;诗】
3. The Life and Adventures of Robinson Crusoe by Daniel Defoe 迪福《鲁宾逊漂流记》【1377,1中文版;小说】
4. The Pilgrim’s Progress by John Bunyan 班扬《天路历程》【4183,3中文版;小说】
5. The Vicar of Wakefield by Oliver Goldsmith 哥尔德斯密斯《威克斐牧师传》【4183,未收录中文版;小说】
6. Paradise Lost and Paradise Regained by John Milton 弥尔顿《失乐园》和《复乐园》【2869,未收录中文版;诗】
7. Commentarii de bello Gallico by Julius Caesar 凯撒《高卢战记》【4,未收录中文版】
8. Pride and Prejudice by Jane Austen 奥斯汀《傲慢与偏见》【4000,489中文版,小说】
9. Les Aventures de Télémaque by François de Salignac de La Mothe-Fénelon《忒勒玛科斯历险记》【2825,未收录中文版,小说】
10. Treasure Island by Robert Louis Stevenson 斯蒂文斯《金银岛》【3661,5中文版,小说】

注:
[1] WorldCat作品关联数据问答(2014年3月7日)
[2] OCLC以关联数据开放1.94亿书目作品(2014年2月27日)
[3] xISBN在FRBR化中的作用(2010年6月7日)
[4] hangingtogether.org: WorldCat’s smallest and largest worksets (July 9, 2015)