自动主题标引工具Annif

不知道什么时候看到2021年的文章《BIBFRAME作品实体描述的半自动化方法》:

Jim Hahn (2021) Semi-Automated Methods for BIBFRAME Work Entity Description, Cataloging & Classification Quarterly, 59:8, 853-867, DOI: 10.1080/01639374.2021.2014011

摘要:本文报告了在RDF关联数据编辑器Sinopia(https://Sinopia.io)中半自动创建BIBFRAME作品实体描述的机器学习方法的研究。自动主题标引软件Annif配置了美国国会图书馆主题标题(LCSH)词表,该词表来自关联数据服务https://id.loc.gov/。培训语料库由来自IvyPlus POD项目 (https://pod.stanford.edu/) 和Share-VDE (https://wiki.share-vde.org) 的930万个题名和LCSH关联数据参引组成。探索了半自动化流程,以支持和扩展而不是取代专业知识。

内容涉及BIBFRAME、机器学习、语料库、自动主题标引……就编目领域而言,很潮。不过下载到电脑桌面后就忘了,前几天看到,打开仔细看过:文章篇名称“作品实体描述”,实际只是提供“主题”;“半自动化方法”,指根据文献题名,由自动主题标引软件Annif给出建议的主题,编目员决定是否采用。其实主题标引建议,对MARC编目也同样适用。

本文围绕两个工具:一、Annif,根据文献题名建议主题;二,BIBFRAME编辑器Sinopia,通过API选择或不选择建议的主题,需要解决编辑器功能问题。以下结合本文了解Annif使用方法。

Annif(https://annif.org/)是芬兰国家图书馆开发的自动主题标引和分类工具。最新版本Annif 1.0.2(2024年2月2日)

实际使用有3种途径:1、命令行界面,2、简洁的Web UI(网站主页有试用),3、微服务风格的REST API。

使用方法(四步骤)

1、选择主题词表

Annif结合使用现有的自然语言处理和机器学习工具,包括TensorFlow、Omikuji、fastText和Gensim。它是多语言的(网站演示3种语言即芬兰语、瑞典语、英语),可以支持任何主题词表(SKOS或简单的TSV格式)。

本文使用LCSH,下载自 https://id.loc.gov/。由于LCSH文件格式没有Annif支持的TTL语法,作者使用RDF语法库进行转换,并在GitHub上公开SKOS LCSH TTL转换的输出。

2、根据训练数据准备语料库。本文使用两个训练语料库:

(1)宾夕法尼亚大学图书馆的130万条带有题名 (245 $a) 和相关的关联数据主题 (650 $0 uri) 的记录的元数据集,数据由Share-VDE作过URI增强处理。

(2)IvyPlus开放数据平台(POD)和Share-VDE的930万题名和主题关联数据。Share-VDE数据来源于合作编目计划(PCC)数据池项目。

3、加载词表并训练模型

首先使用预先标记的测试集评估训练模型。通过使用预先标记的测试,软件将系统地确定基于机器学习的标题[主题]与人工指定的标题的比较方式。PCC成员馆中单独的SDVE强化MARC元数据集提供了测试训练的目标。

通过Scikit学习模型评估,生成归一化折损累计增益(NDCG)分数,前述两个语料库分别得分0.401和0.487。文章称,对于依赖完全自动化机器学习系统的行业来说,预测精度通常接近百分之九十。

4、为新文档建议主题

Annif网站 Web UI 试用可选择显示10、15、20个建议主题。

【话外】第3步预测精度不足,是语料库的问题,不是Annif的问题。由题名预测主题,其不靠谱是可以预料的,最著名的例子是《钢铁是怎样炼成的》。这也就是本文只能“半自动”的主要原因了。

用本文摘要试用Annif网站 Web UI,词表选择YSO Omikuji Bonsai English,建议的10个主题如下:

  • lists of subject headings
  • subject indexing
  • subject cataloging
  • semantic web
  • linking
  • thesauri
  • linked open data
  • metadata
  • machine learning
  • computer programmes

提到Annif的相关博文

2024冬BIBFRAME更新论坛

BIBFRAME发展到2024年,美国国会图书馆(LC)正式应用已近在眼前。业内前些年已经开始关注各家BIBFRAME应用的差异,某次会议多个报告人探讨以哪家应用为基点实现互操作,其中之一自然是LC。本次BIBFRAME更新论坛,LC关注“标准化”,罕见地只选择艾利贝斯(ExLibris)和OCLC两家报告,似乎是为推动以LC的BIBFRAME为“标准”以达成互操作。

BIBFRAME January 2024 Update Forum. 2024-1-22. https://www.loc.gov/bibframe/news/bibframe-update-jan2024.html

会议列出ExLibris报告2个、OCLC报告1个,但PPT只有两家各1个。

两家共同的态度是继续支持MARC。艾利贝斯比较隐讳,称“支持包括BIBFRAME在内的多种格式”;OCLC比较直接,称“在MARC和BIBFRAME之间无缝工作”。

一、Sally McCallum在开场中通报了LC的两个更新

其一,B2M/M2B转换2.5版:LC前一周发布新版BIBFRAME-MARC和MARC-BIBFRAME转换【网站上没看到2.5版更新情况说明】

其二,示例:正逐步添加到BIBFRAME本体规范的属性和类中【List View可以看到已添加不少示例,应该也为展示LC在本次论坛介绍中所提出的“标准BIBFRAME”】

二、ExLibris报告:解锁连接:关联开放数据和BIBFRAME如何为图书馆用户带来好处 Unlocking Connections: How Linked Open Data and BIBFRAME can Benefits Library Users / Chani Yehuda, Itai Veltzman. 22 slides.

支持互操作

  • [1]发布:导出为BIBFRAME;发布到OCLC。
  • [2] API:BIBFRAME作品和实例;与Sinopia集成。
  • [3]全球来源:LC,WIkidata,ORCID,更多……。
  • [4] 知识图谱:由Alma导出目录到机构知识图谱。

2024-2025年关联数据路标

  • 2024上半年,测试托管自己的Sinopia实例(2024年5月,SINOPIA编目接入Alma系统)
  • 2024年下半年,在Primo和Alma中,基于LC和Wikidata,添加新的信息卡(Info Card)和个人页(Person page);扩展关联数据强化处理,由现有规范到编目工作流程。添加外部查找功能到元数据编辑器(Meadata Editor)中的编目工作流程。
  • 2025年,集成本地目录到外部知识图谱系统;能够搜索作品及其实例。

三、OCLC报告:OCLC为BIBFRAME所做的准备 OCLC’s preparation forBIBFRAME / Jeff Mixter. 9 slides.

  • [1]标识符:将WorldCat实体URI添加到WorldCat记录中:个人、地点和事件2023年12月,作品2024年1月底起(创建将在工作流程中使用的全局标识符)
  • [2]工具:2024年1月底,WorldShare Record Manager集成WorldCat实体查找和URI插入编目工作流程(弥合传统记录和关联数据框架之间的差距,实现数据的无缝创建和管理)
  • [3]导入/导出:已发布向OCLC提供BIBFRAME 2.0数据的文档(Prepare your BIBFRAME)https://help.oclc.org/Metadata_Services/WorldShare_Collection_Manager【希望采用美国国会图书馆在其编辑器 MARVA 中使用的序列化方式Concise Bounded Description (CBD)
  • [4] BIBFRAME风格:评估了LC、Share-VDE和瑞典国家图书馆的BIBFRAME,适应BIBFRAME 2.0模型的不同风格(图书馆员可以以尽可能高的保真度共享和交换数据)

另参见:2024年1月30日OCLC新闻,关于OCLC 将 WorldCat 实体标识符添加到 WorldCat 记录中,并将关联数据功能集成到图书馆已使用的编目服务中

Share Family发展概要及2023年总结

Share Family 由两家意大利公司 Casalini Libri(书商)和 @cult(软件公司)主导,始于2016年意大利多家大学图书馆的联合目录SHARE。参见BIBFRAME 2.0实施注册新增项目(附:意大利SHARE目录)(2017-7-25)

SHARE原本是刻意选择的首字母缩略词 Scholarly Heritage and Access to Research,后来直接用作“共享”之意。2017年起公司与LD4P项目、若干北美大学图书馆共同开发Share-VDE,影响逐渐扩大。参见Share-VDE在图书馆关联开放数据中的作用(2021-10-30)

2019年12月,不定期刊物 Share Family Bulletin 发刊,显示Share Family雏形初现。之后各期,可追踪这些年的进展。

2023年建立 Share Family网站:https://www.Share-Family.org

刊物最新为2023年12月第8期 Share Family Bulletin (2023.12 no.8),总结2023年Share Family倡议的成就和挑战,实际也概述了整个发展史。

以下为第8期翻译摘编,含本人先前相关博文链接。文中的图似乎都是从之前各演讲PPT中取来,与文字不尽配套。

把原结语移到最前面,突显Share Family的背景与态度:

【结语】通过采用BIBFRAME作为与IFLA-LRM兼容的主要本体,Share Family利用关联开放数据的潜力,促进数据池之间的互操作性,与MARC共存。

Share Family发展时间线(2016-2023)

图[1]:Share Family发展时间线(2016-2023)

  • 2016 Share目录上线,开始Share-VDE原型;
  • 2017-2019 Share-VDE成员和LD4P成员数据由MARC21到BIBFRAME;
  • 2019-2021 Share-VDE 图书馆LOD环境;
  • 2021 Share Family启动全LOD平台项目;PCC数据池开始;Share-VDE 2.0 新关联数据管理系统和实体发现门户;国家书目工作组开始;
  • 2022 Share Family走向生产;
  • 2023 英国国家书目(beta)走向生产;JCricket【参见JCricket实体编辑器(2023-10-16)】
Share Family 活跃租户和发现网站

图[2]:Share Family 活跃租户和发现网站【图中没有LILLIT,有尚在开发中的3个项目Share ART艺术、Share MUSIC音乐、Share MIA手稿与古籍(LILLIT或归入此)】

Share Family 租户基础架构

图[3]:Share Family 租户基础架构【以 SVDE Sapientia CKB 中央知识库 为中心】

  • Share Family索引 -> SVDE Sapientia CKB/实体注册 -> Share-VDE发现端口和机构皮肤/各租户门户
  • Share Family索引 -> 各租户CKB -> 各租户网站
  • Share-VDE图书馆的原记录 -> SVDE Sapientia CKB

工作组/列举部分】Share-VDE和Share Family工作组,由咨询委员会指导:

  • SEI–Sapientia实体识别工作组:致力于创建Share-VDE本体(BIBFRAME的扩展)https://doi.org/10.5281/zenodo.8332350【参见:Share-VDE本体:BIBFRAME扩展(2023-10-15) https://catwizard.net/posts/20231015091457.html】
  • 用户体验–用户界面工作组:测试和使用Share-VDE 2.0测试版和国家书目门户网站
  • 国家书目工作组
【第三方整合】
Share Family技术的发展包括将LOD平台产生的数据与外部系统相互集成的能力,尤其是与本地ILS和图书馆服务平台以及权威来源的集成。
  • 关于与ILS和LSP整合,值得一提的是一些进步:

-由SVDE AIMS工作组设计并由斯坦福大学图书馆进一步投入的基于MARC的工作流程的新规范服务已经完成,可供愿意测试和使用它们的机构使用。此外,AIMS工作组将于2024年重新召开会议,分析和设计基于RDF/关联数据的工作流的规范控制功能;

-Alma流通API与地方图书馆服务的整合工作基本完成;

-与原生BIBFRAME编目编辑器Sinopia的集成正在进行中:来自Sinopia将由Share-VDE过程聚类的传入RDF数据的解析器正在开发中;

-已经分析了与FOLIO ILS的连接,以将FOLIO典藏数据与Share-VDE数据相关联,并将JCrick用户界面集成到FOLIO中。Share Family团队的Andrea Gazzarini和WOLFcon 2023的Index Data的Sebastian Hammer提出了一个通过FOLIO进行ILS/LSP交互的可能模型,以在相关数据社区内讨论如何寻求这种联系。

  • 关于与规范系统整合,正在调查几个数据来源,在某些情况下,已经完成了初步整合步骤:

-LD4P提问规范(Questioning Authority)查询工具;

-用于相互丰富实体ID的Wikidata(最初的规范由SVDE工作组制定);

-用于相互丰富实体ID的ISNI(初始规范由SVDE工作组制定)。

UNIMARC-BIBFRAME转换

SHARE目录倡议已经完成了UNIMARC-BIBFRAME直接映射和转换的工作(没有通过MARC的中间步骤),并将通过将得到丰富和记录的Wikibase实例与关联数据社区共享这项工作https://unimarc2bibframe.wikibase.cloud/2024/1/5内容为空

非拉丁文字丰富LOD平台

  • 2024年国立台湾大学图书馆将加入Share Family,由国立台湾大学图书馆提供的数据将由LD4P非拉丁文字资料亲和小组进行测试;
  • 正在使用一个支持阿拉伯文字的测试门户进行实验