如何查各类BIBFRAME记录(及作品和实例子类的表示)

有同行想找使用bf:Archival的例子,但没有找到,在BIBFRAME邮件组寻求帮助。

美国国会图书馆(LC)负责BIBFRAME的网络开发与MARC标准办公室的Nate Trail首先给出的解答是:档案(bf:Archival)是实例(bf:Instance)的一个类型(rdftype),因此在id.loc.gov上查实例会看到更多。

按Nate给出的实例检索式(https://id.loc.gov/search/?q=cs:http://id.loc.gov/resources/instances,侧栏细化检索有类型分面,目前Archival有1025条。【此法对查找不同类型记录特别方便,如修改为作品检索式(https://id.loc.gov/search/?q=cs:http://id.loc.gov/resources/works,再由侧栏分面细化限定】

然而,实例中并未使用bf:Archival。BIBFRAME词表网站的Archival类(https://id.loc.gov/ontologies/bibframe.html#c_Archival)的示例,也没有直接使用bf:Archival。

Nate后来解释:对作品和实例类型,LC不使用子类作为资源的名称(如bf:Archival),而是保留bf:Instance,用一个rdf:type属性进一步定义它。如BIBFRAME词表网站中的示例片断【特别是第2行】:

<bf:Instance rdf:about=http://id.loc.gov/resources/instances/5811340>【bf:Instance类】
    <rdf:type rdf:resource=http://id.loc.gov/ontologies/bibframe/Archival/>【子类Archival】
    <bf:title >
      <bf:Title >
        <bf:mainTitle >Benjamin Silliman correspondence</bf:mainTitle>
      </bf:Title>
    </bf:title>
…
</bf:Instance>

使用机器学习消除重复书目数据

对于联合目录,除编目员实时提交书目记录及馆藏信息,还会有各种批量导入数据(如各馆的回溯记录、在版编目记录、电子资源记录等),拒绝并消除(合并)重复数据是一项长期而艰巨的任务。数十年来,MARC格式和编目规则发生了多次变化,去重并不能简单地通过字段+字符的比对完成。

OCLC的WorldCat作为世界上最大的图书馆联合目录,目前收录书目记录近5.6亿条(https://www.oclc.org/en/worldcat/inside-worldcat.html),其中自不可避免有大量重复记录。

2023年8月19日,OCLC利用机器学习消除重复书目数据,通过算法处理100万条记录(500,000 对),合并WorldCat中500,000条重复记录合并,以期改善图书馆员工和最终用户的编目、检索和馆际互借体验。

见OCLC新闻:Leveraging machine learning technology as part of ongoing WorldCat quality measures. 2023-8-14. 

OCLC研究部博客有更详细介绍,以下为摘译:

Machine Learning and WorldCat: improving records for cataloging and discovery /Jenny Toves.Hanging together, 2023-8-14.  

OCLC自1980年代初开始手工删除重复记录,1990年代引入自动化流程“重复检测和解决”(Duplicate Detection and Resolution, DDR)。目前,平均每月手动删除 11,000 条记录,通过自动化删除 100万条记录。此外,每个月都会将数百万条新摄取的记录合并到现有的WorldCat记录中,也要避免新增重复记录。

2022年初,OCLC数据科学团队开始研究使用机器学习(ML)来识别WorldCat中的重复记录,即“基于样本数据(称为训练数据)构建模型的算法,以便在没有明确编程的情况下做出预测或决策”。

ML查看训练数据(标有正确答案的数据),并找出数据标记为保留或合并/删除的原因。然后,它将“学到”的知识应用到新的数据集上,ML会提供一个它认为被准确标记的百分比。如果ML可以通过DDR识别其他重复项,则可以通过我们的标准解决流程删除这些重复项,从而确保保留适当的记录。研究了不同的ML算法,但更重要的障碍是收集一组训练数据集以运行所选算法。

【标记训练数据】数据科学团队联系了数据质量团队以寻找数据集……让我们的成员参与到这个过程中来,就像许多人对手动重复数据删除所做的那样……要求成员图书馆(即编目专家)审查ML模型认为重复的记录对,并将它们标记为重复。

【标记界面】显示选择选项和正在分析的两条记录是否重复。该界面允许用户检索一对可能重复的书目记录,可以通过选择编目语言、资料类型和记录年龄的值来生成对。屏幕出现一对可能重复的记录,黄色表示两个字段之间存在差异,绿色表示字段完全相同;无底色表示该字段仅存在于其中一条记录中。用户要求选择这两条记录是否描述同一东西,可回答是、否或不确定。用户还可选中字段旁边的复选框,表明该字段与上述决定相关。

该工具包含两万对记录,目标是让每对由不同的审阅者审查三次。2022/12-2023/4期间共评估超过34,000对潜在的重复记录。虽然不是每对都有三条评审,但收集了大量数据来训练ML模型。我们发现,在收到多条评审的配对中,超过95%的评论者之间没有分歧。这表明该模型在识别重复项方面与人类相当。这些数据用于完善模型,数据质量团队审查了新结果的准确性。

ISBDM全球评审启动(2024/5/15-7/15)

ISBDM即《ISBD载体表现》或《国际标准书目著录-载体表现》的编制进入最后阶段:

【全球评审通知】ISBDM World-wide Review: 2024/5/15-7/15. https://www.ifla.org/events/isbdm-world-wide-review/

【评审介绍页】通知中的“更多信息”链接到的是评审介绍页,页面除上述通知内容(特别附加说明“不接受匿名提交”),还有简单的背景信息,包括3次网络研究会和1个专题报告的资料链接:

ISBD for Manifestation —— World wide review https://www.iflastandards.info/ISBDM/wwr.html

  • 从ISBD到ISBDM – 转型中的书目标准 From ISBD to ISBDM – a bibliographic standard in transformation(2023/1/26)
  • ISBDM专家评审介绍会 ISBDM Experts Review Introduction Meeting(2024/2/8)
  • ISBDM全球评审网络研讨会 ISBDM World-wide review webinar(2024/4/25)
  • 补充介绍:ISBD 中表现的数量 / Gordon Dunsire(2023/11/13)

八卦接受反馈者】ISBDM由ISBDM任务组负责编制。在IFLA-L邮件组发通知的Mikael Wetterstrom是ISBD评审组主席,ISBDM任务组是其下属机构,他也是该任务组成员。另一位不知道为什么不是任务组主席Renate Behrens(RDA指导委员会即RSC现任主席),而是任务组成员Gordon Dunsire(RSC前任主席)?

ISBDM相关博文: