自动主题标引工具Annif

不知道什么时候看到2021年的文章《BIBFRAME作品实体描述的半自动化方法》:

Jim Hahn (2021) Semi-Automated Methods for BIBFRAME Work Entity Description, Cataloging & Classification Quarterly, 59:8, 853-867, DOI: 10.1080/01639374.2021.2014011

摘要:本文报告了在RDF关联数据编辑器Sinopia(https://Sinopia.io)中半自动创建BIBFRAME作品实体描述的机器学习方法的研究。自动主题标引软件Annif配置了美国国会图书馆主题标题(LCSH)词表,该词表来自关联数据服务https://id.loc.gov/。培训语料库由来自IvyPlus POD项目 (https://pod.stanford.edu/) 和Share-VDE (https://wiki.share-vde.org) 的930万个题名和LCSH关联数据参引组成。探索了半自动化流程,以支持和扩展而不是取代专业知识。

内容涉及BIBFRAME、机器学习、语料库、自动主题标引……就编目领域而言,很潮。不过下载到电脑桌面后就忘了,前几天看到,打开仔细看过:文章篇名称“作品实体描述”,实际只是提供“主题”;“半自动化方法”,指根据文献题名,由自动主题标引软件Annif给出建议的主题,编目员决定是否采用。其实主题标引建议,对MARC编目也同样适用。

本文围绕两个工具:一、Annif,根据文献题名建议主题;二,BIBFRAME编辑器Sinopia,通过API选择或不选择建议的主题,需要解决编辑器功能问题。以下结合本文了解Annif使用方法。

Annif(https://annif.org/)是芬兰国家图书馆开发的自动主题标引和分类工具。最新版本Annif 1.0.2(2024年2月2日)

实际使用有3种途径:1、命令行界面,2、简洁的Web UI(网站主页有试用),3、微服务风格的REST API。

使用方法(四步骤)

1、选择主题词表

Annif结合使用现有的自然语言处理和机器学习工具,包括TensorFlow、Omikuji、fastText和Gensim。它是多语言的(网站演示3种语言即芬兰语、瑞典语、英语),可以支持任何主题词表(SKOS或简单的TSV格式)。

本文使用LCSH,下载自 https://id.loc.gov/。由于LCSH文件格式没有Annif支持的TTL语法,作者使用RDF语法库进行转换,并在GitHub上公开SKOS LCSH TTL转换的输出。

2、根据训练数据准备语料库。本文使用两个训练语料库:

(1)宾夕法尼亚大学图书馆的130万条带有题名 (245 $a) 和相关的关联数据主题 (650 $0 uri) 的记录的元数据集,数据由Share-VDE作过URI增强处理。

(2)IvyPlus开放数据平台(POD)和Share-VDE的930万题名和主题关联数据。Share-VDE数据来源于合作编目计划(PCC)数据池项目。

3、加载词表并训练模型

首先使用预先标记的测试集评估训练模型。通过使用预先标记的测试,软件将系统地确定基于机器学习的标题[主题]与人工指定的标题的比较方式。PCC成员馆中单独的SDVE强化MARC元数据集提供了测试训练的目标。

通过Scikit学习模型评估,生成归一化折损累计增益(NDCG)分数,前述两个语料库分别得分0.401和0.487。文章称,对于依赖完全自动化机器学习系统的行业来说,预测精度通常接近百分之九十。

4、为新文档建议主题

Annif网站 Web UI 试用可选择显示10、15、20个建议主题。

【话外】第3步预测精度不足,是语料库的问题,不是Annif的问题。由题名预测主题,其不靠谱是可以预料的,最著名的例子是《钢铁是怎样炼成的》。这也就是本文只能“半自动”的主要原因了。

用本文摘要试用Annif网站 Web UI,词表选择YSO Omikuji Bonsai English,建议的10个主题如下:

  • lists of subject headings
  • subject indexing
  • subject cataloging
  • semantic web
  • linking
  • thesauri
  • linked open data
  • metadata
  • machine learning
  • computer programmes

提到Annif的相关博文

不列颠图书馆在回溯转换和积压清理中采用FAST与简版DDC

年初不列颠图书馆(BL)就采用FAST代替LCSH、DDC简版代替完整版在网上征求意见(不列颠图书馆考虑采用FAST和简版DDC)。问卷包括3条建议,以及1对该建议的总体态度、2建议对自身工作与3对使用BL元数据的影响:
建议1:有选择地采用FAST,扩展当前和遗留内容的主题标引范围
建议2:在所有当前编目中实施FAST、取代LCSH,为减轻上述风险,尤其是可持续性
建议3:有选择地实施简版DDC,扩展当前和遗留内容的主题标引范围

上月BL公布了问卷结果:
Response to the consultation on Subject Standards (2016-07-18)
via British Library > Collection Metadata > News

60个回复者中33个说明了国别,其中21个来自英国(占2/3),剩下为美国6个、爱尔兰3个、比利时/加拿大/新西兰各1个。
问卷采用5级评价,其中总体评价结果如下:
建议1(扩展用FAST):很负面13、负面10、中立15、正面16、很正面6
建议2(FAST替代LCSH):很负面23、负面11、中立11、正面12、很正面2
建议3(扩展用DDC):很负面10、负面11、中立25、正面8、很正面5

除了数字,还有回复者对3个问题的看法。总体上对建议的负面评价居多,尤其是建议2用FAST取代LCSH。而对DDC中立居多,主要原因或许是不少回复者并不使用DDC。
回复中最详细文字是牛津大学对FAST存在问题的长篇看法。回复称,“我们欢迎简化主题标目系统,但非常关注FAST的当前状态及未来可能的发展。两者结合,导致我们对上述问题持“非常负面”的回答”。接着提出2个要点:1、FAST可能提供不可靠的搭配;2、FAST没有覆盖LCSH/LCNAF(名称规范档)主题系统。并报告了9个方面的问题,包括与OCLC的FAST团队沟通过的内容。

文件报告的BL下一步工作:
FAST:FAST正用于经选择的回溯转换和积压清理项目,以及某些原生数字资源。希望这不会对我们元数据和目录的用户有任何负面影响,因为不然的话不会对这些资源提供主题标引。
我们将测试以评估FAST相对于LCSH的有效性与质量,测试将包括比较时间与行动、可检索性研究。将于2016年8月报告结果。
DDC:考虑到当前产品与服务,本馆没有计划改变应用完整版DDC。
对于没有任何分类号的资源,包括遗留数据和未编目资源,我们看到回溯应用中简略DDC在改进发现与其他服务的机会。我们也会应用简略DDC到目前未提供DDC的现有内容流程。希望这不会对我们元数据服务的用户有任何负面影响。
总体上,我们发现简略DDC当前没有提供我们需要的效率,但正通过EThOS服务成功应用于英国学位论文。

BL对FAST的评估结果将会在其官网等发布。如果要研究FAST,牛津大学所提出的9个方面的问题以及BL将发布的报告,是必须关注的内容。

WorldCat书目记录开始批量增加FAST主题

OCLC宣布从9月开始在WorldCat书目记录中逐步增加FAST主题,针对的是已经有LCSH且以英语为编目语言的记录,系统自动在后台处理、预计为期一年。OCLC称此为用FAST强化WorldCat记录,但其实针对已有LSCH的记录,只是分拆现有内容,从内容上应该称不上“强化”——不过多年来OCLC在FAST上已试验多种功能,“强化”后无疑有助于对记录作细粒度的处理

FAST(主题术语分面应用)是衍生自LCSH的完全列举分面标题表[仍为先组、并非元词法],按八个分面拆分LSCH。经处理后的MARC21记录特征是040字段有$dOCLCF。LCSH在MARC21中通常用650或651字段,FAST则拆分成8个字段,如下:
FAST分面——MARC 21字段
个人名称——600
团体名称——610
事件——611
题名——630
时序——648
论题——650
地理名称——651
形式/体裁——655
从说明文档所举样例看,,分拆后没有主题词分组的标识。对于多主题的资源,就可能出现误检,这个是情报检索语言研究中的老问题——假设有一本书讲“美国大选对日本经济的影响”,采用FAST,就可能会在查“日本大选”或“美国经济”时误命中。

via OCLC News — Announcements: Enriching WorldCat with FAST (25 September 2013)
说明文件:EnrichingWorldCatwithFAST
FAST项目主页:FAST (Faceted Application of Subject Terminology)

———-转换样例———-
由说明文件提到的几个样例,可以更清楚地了解FAST的构成。
(1)讲述美国2012大选的“Collision 2012 : Obama vs. Romney and the future of elections in America”一书(OCLC控制号818953763),原LCSH:
650 _0 $a Presidents $z United States $x Election $y 2012.
650 _0 $a Presidential candidates $z United States.
600 10 $a Obama, Barack.
600 10 $a Romney, Mitt.
FAST:
600 17 ǂa Obama, Barack. ǂ2 fast ǂ0 (OCoLC)fst00348231
600 17 ǂa Romney, Mitt. ǂ2 fast ǂ0 (OCoLC)fst00355923
650 _7 ǂa Presidential candidates. ǂ2 fast ǂ0 (OCoLC)fst01075708
650 _7 ǂa Presidents ǂx Election. ǂ2 fast ǂ0 (OCoLC)fst01075747
651 _7 ǂa United States. ǂ2 fast ǂ0 (OCoLC)fst01204155 [两个论题中的地点独立出来]
648 _7 ǂa 2012 ǂ2 fast [论题中的时间独立出来]
从上例可见,FAST并非元词法,仍然有组配(第2个650字段),只是把原650和651中$y时间和$z地点子字段变成了独立的648、651字段。6XX第2指示符7所用主题词表由ǂ2说明(即FAST);ǂ0为OCLC的FAST主题词控制号(648的2012非受控词),用于计算机连接到规范记录,系统可据此同步、纠错等。

(2)上面是一个简单例子,“作品”主题的转换略为复杂:
LCSH: 600 10 $a Shakespeare, William,$d 1564-1616 $t Macbeth.
FAST: 630 _7 ǂa Macbeth (Shakespeare, William) ǂ2 fast ǂ0 (OCoLC)fst01356136
作品主题不按“名称——题名”方式构成,而是取题名,以创作者做限定,用630字段,形式如:题名(创作者)
不知道在没有重名的情况下,是不是可以不用创作者做限定?

(3)更复杂的转换例子是论题中的“事件”:
LCSH:
600 10 $a Washington, George, $d 1732-1799
650 _0 $aTrenton, Battle of, Trenton, N.J., 1776 $v Juvenile literature.
651 _0 $aDelaware River (N.Y.-Del. and N.J.).
FAST:
600 17 ǂa Washington, George, ǂd 1732-1799 ǂ2 fast ǂ0 (OCoLC)fst00178100
611 7 ǂa Trenton, Battle of (New Jersey : 1776) ǂ2 fast ǂ0 (OCoLC)fst01404297 [论题被视为事件]
648 7 ǂa 1776 ǂ2 fast [事件中的时间独立出来]
651 7 ǂa New Jersey ǂz Trenton ǂ2 fast ǂ0 (OCoLC)fst01207908 [事件中的地点独立出来]
651 7 ǂa United States ǂz Delaware River ǂ2 fast ǂ0 (OCoLC)fst01310316 [LCSH的651地点,格式转换为:上级地名ǂz下级地名]
655 7 ǂa Juvenile works ǂ2 fast ǂ0 (OCoLC)fst01411637 [650$v体裁]
事件类似于会议(实际上应该反过来说,只是编目员更熟悉会议),用611字段,格式为:事件名称(地点:时间);地点与时间另外还要用的651与648字段重复揭示。作品类型或体裁,用655字段(本字段相对常见,以往也有用到)。

———-关于FAST——–
FAST始于1998年,当时OCLC正进行著名的对网络资源编目的CORC(Cooperative Online Resource Catalog)项目,需要简化标引规范,让非专业编目员或标引员能够做主题标引。开发FAST的意图:易学易用、分面导航友好、现代设计;主要目标:(1)与现有元数据兼容;(2)易于赋词;(3)检索有效性;(4)维护费用;(5)语义互操作。当时,ALCTS/SAC/SMSA(ALA的图书馆馆藏与技术服务协会之主题访问委员会之元数据与主题分析分委会)正提出元数据记录中主题数据的特定功能需求(ALCTS 1999),与FAST项目的预期结果吻合。目前FAST由OCLC和LC协作,ALCTS/SAC/FAST分委员成员提供建议。

FAST项目的用户界面应用包括:
searchFAST(FAST数据库的全功能检索界面)——重新设计的FASt用户检索界面于2011年11月发布
mapFAST(Google地图混搭原型,使用FAST地理与事件规范;有移动版)
FAST Converter(在Web办面转换LCSH标目到FAST标目。可以粘贴主题部分或上传MARC格式文件进行转换)
FAST Linked Data(FAST关联数据服务)——另有批量下载
assignFAST(手工选择FAST主题自动化:根据输入、选择的主题,转换为带不同子字段标识的MARC字段)
所有检索框均有输入自动提示,提示根据使用频率排列,且不限首词而是任意位置,如查Shanghai,最前面的是:China–Shanghai

FAST在OCLC其他项目中的应用(采用OCLC研究部维护的经FAST强化的内部备份数据访问WorldCat记录):
WorldCat Identities (FAST用于每个WorldCat身份档页面底部的主题标签云)
OCLC Classify(FAST词汇用作“主题”索引)
实验性的“xFinder”应用(如:Cookbook Finder)及某些基于作品的相关应用,如:Kindred Works [参见:OCLC元数据管理研究:食谱探测器与同种作品推荐(2013年9月15日)]
WorldCat.org关联数据
– 正通过FAST/VIAF中心工作,试验以FAST作为馆藏分析途径