自动主题标引工具Annif

不知道什么时候看到2021年的文章《BIBFRAME作品实体描述的半自动化方法》:

Jim Hahn (2021) Semi-Automated Methods for BIBFRAME Work Entity Description, Cataloging & Classification Quarterly, 59:8, 853-867, DOI: 10.1080/01639374.2021.2014011

摘要:本文报告了在RDF关联数据编辑器Sinopia(https://Sinopia.io)中半自动创建BIBFRAME作品实体描述的机器学习方法的研究。自动主题标引软件Annif配置了美国国会图书馆主题标题(LCSH)词表,该词表来自关联数据服务https://id.loc.gov/。培训语料库由来自IvyPlus POD项目 (https://pod.stanford.edu/) 和Share-VDE (https://wiki.share-vde.org) 的930万个题名和LCSH关联数据参引组成。探索了半自动化流程,以支持和扩展而不是取代专业知识。

内容涉及BIBFRAME、机器学习、语料库、自动主题标引……就编目领域而言,很潮。不过下载到电脑桌面后就忘了,前几天看到,打开仔细看过:文章篇名称“作品实体描述”,实际只是提供“主题”;“半自动化方法”,指根据文献题名,由自动主题标引软件Annif给出建议的主题,编目员决定是否采用。其实主题标引建议,对MARC编目也同样适用。

本文围绕两个工具:一、Annif,根据文献题名建议主题;二,BIBFRAME编辑器Sinopia,通过API选择或不选择建议的主题,需要解决编辑器功能问题。以下结合本文了解Annif使用方法。

Annif(https://annif.org/)是芬兰国家图书馆开发的自动主题标引和分类工具。最新版本Annif 1.0.2(2024年2月2日)

实际使用有3种途径:1、命令行界面,2、简洁的Web UI(网站主页有试用),3、微服务风格的REST API。

使用方法(四步骤)

1、选择主题词表

Annif结合使用现有的自然语言处理和机器学习工具,包括TensorFlow、Omikuji、fastText和Gensim。它是多语言的(网站演示3种语言即芬兰语、瑞典语、英语),可以支持任何主题词表(SKOS或简单的TSV格式)。

本文使用LCSH,下载自 https://id.loc.gov/。由于LCSH文件格式没有Annif支持的TTL语法,作者使用RDF语法库进行转换,并在GitHub上公开SKOS LCSH TTL转换的输出。

2、根据训练数据准备语料库。本文使用两个训练语料库:

(1)宾夕法尼亚大学图书馆的130万条带有题名 (245 $a) 和相关的关联数据主题 (650 $0 uri) 的记录的元数据集,数据由Share-VDE作过URI增强处理。

(2)IvyPlus开放数据平台(POD)和Share-VDE的930万题名和主题关联数据。Share-VDE数据来源于合作编目计划(PCC)数据池项目。

3、加载词表并训练模型

首先使用预先标记的测试集评估训练模型。通过使用预先标记的测试,软件将系统地确定基于机器学习的标题[主题]与人工指定的标题的比较方式。PCC成员馆中单独的SDVE强化MARC元数据集提供了测试训练的目标。

通过Scikit学习模型评估,生成归一化折损累计增益(NDCG)分数,前述两个语料库分别得分0.401和0.487。文章称,对于依赖完全自动化机器学习系统的行业来说,预测精度通常接近百分之九十。

4、为新文档建议主题

Annif网站 Web UI 试用可选择显示10、15、20个建议主题。

【话外】第3步预测精度不足,是语料库的问题,不是Annif的问题。由题名预测主题,其不靠谱是可以预料的,最著名的例子是《钢铁是怎样炼成的》。这也就是本文只能“半自动”的主要原因了。

用本文摘要试用Annif网站 Web UI,词表选择YSO Omikuji Bonsai English,建议的10个主题如下:

  • lists of subject headings
  • subject indexing
  • subject cataloging
  • semantic web
  • linking
  • thesauri
  • linked open data
  • metadata
  • machine learning
  • computer programmes

提到Annif的相关博文

LC关联数据批下载更新

美国国会图书馆(LC)2009年上线id.loc.gov网站,陆续以关联数据形式提供该馆维护的各类词表和书目、规范数据,后来又开始陆续提供数据的批下载。发布的数据可以查询或关联使用,下载的数据还可以整合到自己的应用中。

今天在BIBFRAME邮件组中看到消息,称其中的LCSH(国会图书馆标题表)和LCNAF(名称规范档)已更新,并将持续定期更新:

  • LCSH:每周三更新(如果有变化)
  • LCNAF:每月15日更新
  • 二者均以JSON-LD、N-Triple和XML序列化。

The Library of Congress > Linked Data Service > Download

目前LC关联数据服务的批下载页面有各种主题词表、名称规范、代码表(编目条例、国别、地理区域、语种、体裁、关系词等)数十种,序列化为RDF/XML、Turtle或N-triples。文件大小从数KB到十数GB不等,通常为压缩文件,解压后可能增大10倍。每个文件都显示更新日期。相关背景信息见LC关联数据服务的技术中心(Technical Center),包括:下载数据处理方法、元数据结构标准、搜索使用与SPARQL查询方法、支持的RDF MIME类型和序列化格式。

参见:

不列颠图书馆考虑采用FAST和简版DDC

不列颠图书馆(BL)于2014年后期开始评估该馆所用主题与分类法,考虑用FAST(Faceted Application of Subject Terminology)代替LCSH、用简版DDC(Abridged Dewey)代替DDC。
提高效率只是进行此项评估的原因之一,另一个原因是把主题标引扩展到原来未标引的资源,以更好地满足受众对元数据的期望。
经过一组编目员4个月的标引测试,并分析各种利弊,于2015年4月形成3条建议,目前正公开征求利益相关人的反馈。

Consultation on Subject Indexing and Classification standards applied by the British Library / FAST/Dewey Review Group, April 2015

3条建议是:
– 有选择地采用FAST,扩展当前和遗留内容的主题标引范围
– 在所有当前编目中实施FAST、取代LCSH,为减轻上述风险,尤其是可持续性
– 有选择地实施简版DDC,扩展当前和遗留内容的主题标引范围
也就是说,未考虑用简版DDC做编目。原因是《英国国家书目》(BNB)等还需要DDC,并且简版DDC只能通过订购WebDewey才能访问。

有关FAST的利弊分析比DDC全面,包括:效率、发现、经济/实施费用、可持续性四方面。是个不错的评价框架。
FAST使用简单、方便,与LCSH兼容,可以用MARCEdit实现从LCSH到FAST的批转换,完全免费,有许多图书馆的数字项目使用。
主要问题在于目前FAST是OCLC的一个研究项目,未来是否会成为一项服务还不清楚。【或者说,不知道会不会如简版DDC那样需要订购?】

via British Library > Collection Metadata > News
British Library launches consultation on use of FAST and abridged Dewey Decimal Classification (2016-02-12)