OCLC新数据模型:WorldCat本体

WorldCat本体是OCLC为WorldCat实体(WorldCat Entities)也即对应图书馆传统的规范数据所开发的本体。

在2023年欧洲BIBFRAME研讨会上,OCLC的Jeff Mixter有一个报告,介绍OCLC在关联数据方面所做工作,包括开发中的Meridian(子午线),也提到WorldCat本体(Meeting users where they are today: easing the burden of migrating to linked data)。但当时查不到该本体的详细信息。

2024年初发布的OCLC关联数据网页oc.lc/linkeddata(有中文版,链接数据:下一代图书馆元数据),“构建、维护和发展链接数据基础设施”部分如此介绍WorldCat本体:新数据模型

“WorldCat 本体是一个数据模型,提供描述图书馆链接数据所需的关键规范信息。它旨在满足图书馆的工作流程需求,在资源之间建立更多更好的连接,并支持图书馆的网络可见性和合作伙伴关系。”

参见:

最近找到了WorldCat本体的官网,有英法两种语言版本,最新版为3.1(比3.0版增加法语翻译):

WorldCat本体(WorldCat Ontology, wco:)

WorldCat实体包括作品、个人、地点、事件等。以下为WorldCat本体的类清单【( )标记为其子类】,各类定义有丰富的属性(略)。

[0] WorldCat Thing(OWL个体的类。以下6子类及其子类[以-表示],多沿用Thing定义的属性)

[1] WorldCat Agent(行为者。能够执行操作的实体)

  • – WorldCat Person
  • – WorldCat Family
  • – WorldCat Organization
  • — WorldCat Administrative Area (Organization) (团体子类,行政区域(组织)= Administrative Area (Place))
  • 原注:行政区域(地点)和行政区域(组织)是同一类。添加括号只是为了在层次结构中的两个位置显示它。

[2] WorldCat Concept(概念)【非主题】

  • – WorldCat Frequency
  • – WorldCat Measurement
  • – WorldCat Performance Medium
  • – WorldCat Postal Address
  • – WorldCat Role
  • – WorldCat Unit of Measure

[3] WorldCat Edition(版本)

[4] WorldCat Event(事件)

  • – WorldCat Transactional Event (事务性事件。特定类型的事件,旨在表示间接链接两个或多个受影响实体的事务性或转换性事件序列)

[5] WorldCat Place(地点)

  • – WorldCat Administrative Area (Place) (行政区域(地点),同时是团体子类 = Administrative Area (Organization))
  • – WorldCat Landform(地形地貌)

[6] WorldCat Work(作品)

  • – WorldCat Cartographic Material(地图资料)
  • – WorldCat Collection(文集)【组织形式】
  • — WorldCat Archival Collection (Collection)(档案集)
  • — WorldCat Continuing Resource (Collection)(连续性资源)
  • — WorldCat Integrating Resource (Continuing Resource)(集成资源)
  • — WorldCat Serial (Continuing Resource)(连续出版物)
  • — WorldCat Festschrift (Collection)(纪念文集)
  • — WorldCat Series (Collection)(丛编)
  • – WorldCat Data Set(数据集)
  • – WorldCat Interactive Resource(交互资源)【计算机程序/软件的细化。游戏?】
  • – WorldCat Software
  • – WorldCat Fictional Entity(虚构实体)【体裁?】
  • – WorldCat Image(图像)
  • — WorldCat Moving Image (Image)(动态图像)
  • — WorldCat Still Image (Image)(静态图像)
  • – WorldCat Notated Movement
  • – WorldCat Notated Music
  • – WorldCat Sound(声音)【未细分口语】
  • — WorldCat Music (Sound)(音乐)
  • – WorldCat Physical Object
  • – WorldCat Text
  • – WorldCat Website(网站)【集成资源特例】

【作品类比较】WorldCat作品有20多子类,接近BIBFRAME的作品子类,含RDA内容类型和组织形式2个方面:

主要差异(不免想起标准牙刷说……

  • 1、声音/音频:RDA有3类(声音、表演音乐、口语),WCO有2类(声音、音乐),BF只有1类(音频)。
  • 2、WCO增加的类:虚构实体(当指虚构类作品,非指LRM所说的虚构人物)。
  • 3、WCO细化的类:网站(RDA属集成资源),交互资源(软件的细化,如游戏?)。
  • 4、WCO的文集:对应于组织形式,其子类更多(如档案、纪念文集等)。

参见:BIBFRAME作品与实例的子类(及与RDA/MARC21的对照)(2024-6-14)

使用机器学习消除重复书目数据

对于联合目录,除编目员实时提交书目记录及馆藏信息,还会有各种批量导入数据(如各馆的回溯记录、在版编目记录、电子资源记录等),拒绝并消除(合并)重复数据是一项长期而艰巨的任务。数十年来,MARC格式和编目规则发生了多次变化,去重并不能简单地通过字段+字符的比对完成。

OCLC的WorldCat作为世界上最大的图书馆联合目录,目前收录书目记录近5.6亿条(https://www.oclc.org/en/worldcat/inside-worldcat.html),其中自不可避免有大量重复记录。

2023年8月19日,OCLC利用机器学习消除重复书目数据,通过算法处理100万条记录(500,000 对),合并WorldCat中500,000条重复记录合并,以期改善图书馆员工和最终用户的编目、检索和馆际互借体验。

见OCLC新闻:Leveraging machine learning technology as part of ongoing WorldCat quality measures. 2023-8-14. 

OCLC研究部博客有更详细介绍,以下为摘译:

Machine Learning and WorldCat: improving records for cataloging and discovery /Jenny Toves.Hanging together, 2023-8-14.  

OCLC自1980年代初开始手工删除重复记录,1990年代引入自动化流程“重复检测和解决”(Duplicate Detection and Resolution, DDR)。目前,平均每月手动删除 11,000 条记录,通过自动化删除 100万条记录。此外,每个月都会将数百万条新摄取的记录合并到现有的WorldCat记录中,也要避免新增重复记录。

2022年初,OCLC数据科学团队开始研究使用机器学习(ML)来识别WorldCat中的重复记录,即“基于样本数据(称为训练数据)构建模型的算法,以便在没有明确编程的情况下做出预测或决策”。

ML查看训练数据(标有正确答案的数据),并找出数据标记为保留或合并/删除的原因。然后,它将“学到”的知识应用到新的数据集上,ML会提供一个它认为被准确标记的百分比。如果ML可以通过DDR识别其他重复项,则可以通过我们的标准解决流程删除这些重复项,从而确保保留适当的记录。研究了不同的ML算法,但更重要的障碍是收集一组训练数据集以运行所选算法。

【标记训练数据】数据科学团队联系了数据质量团队以寻找数据集……让我们的成员参与到这个过程中来,就像许多人对手动重复数据删除所做的那样……要求成员图书馆(即编目专家)审查ML模型认为重复的记录对,并将它们标记为重复。

【标记界面】显示选择选项和正在分析的两条记录是否重复。该界面允许用户检索一对可能重复的书目记录,可以通过选择编目语言、资料类型和记录年龄的值来生成对。屏幕出现一对可能重复的记录,黄色表示两个字段之间存在差异,绿色表示字段完全相同;无底色表示该字段仅存在于其中一条记录中。用户要求选择这两条记录是否描述同一东西,可回答是、否或不确定。用户还可选中字段旁边的复选框,表明该字段与上述决定相关。

该工具包含两万对记录,目标是让每对由不同的审阅者审查三次。2022/12-2023/4期间共评估超过34,000对潜在的重复记录。虽然不是每对都有三条评审,但收集了大量数据来训练ML模型。我们发现,在收到多条评审的配对中,超过95%的评论者之间没有分歧。这表明该模型在识别重复项方面与人类相当。这些数据用于完善模型,数据质量团队审查了新结果的准确性。

WorldCat 45周年 & OCLC API访问每天300万

上月OCLC的WorldCat庆祝了它的45周年1971年8月26日,当时名为OCLC联机联合目录的WorldCat在那天接受了来自俄亥俄大学编目员联机编目的133种图书。45年后,WorldCat已收录3.8亿多条记录、涉及世界各国图书馆24亿多件馆藏。资料类型包括图书、连续出版物、乐谱、地图、录音、视频资料、DVD、计算机文档、电子书、数字资源、混合资料等,涉及491种语言文字,其中62%为非英语。看WorldCat记录实时增长(Watch WorldCat Grow),最近加入的是哪条记录,哪个机构上传?

也是在上月,OCLC的API每天点击超过了300万。OCLC在2003年开始Open WorldCat项目,试验结束时每天的点击是4千,已被认为相当成功。之后OCLC开始提供API,目前有十多种,超过4500机构个人申请了API Key,用这些API开发的应用超过了100种。
用得最多的是WorldCat Search API,有超过50种应用,使用机构超过500家,贡献了约一半的点击。
现在甚至可以通过API,用手机向WorldCat提交简编记录,这就是供非馆员使用的Bib It,采用的是WorldCat Metadata API。

Bib It

相关:
OCLC News release: Celebrating 45 years of WorldCat (DUBLIN, Ohio, 26 August 2016)
Next: 3 million knocks on library doors every day (2016-8-3)
参见:OCLC的Open WorldCat计划(2004-10-28)

——— OCLC的Web Service一览Gallery) ———
– Article Exchange API
– Classify
– FAST API
– OpenURL Gateway
– QuestionPoint knowledge base API
– Terminology Services
– VIAF API
– WMS Acquisitions API
– WMS Collection Management API
– WorldCat Basic API
– WorldCat Discovery API
– WorldCat Identities
– WorldCat Metadata API
– WorldCat Recommender Service
– WorldCat Registry
– WorldCat Search API
– WorldCat knowledge base API
– xID API