若有所思 – 第 13 页 – 编目精灵III

牛津大学图书馆Z39.50服务器变化

牛排（网友）在微信上问我，牛津大学图书馆书目数据还能套录否？并给出认证用户失败、查询失败的提示截屏。

很久没用Z39.50查书目数据了。电脑系统更新到Windows 11后，还没有安装Z39.50客户端。立刻安装，添加以前收集的牛津大学Z39.50服务器信息（主机/端口/数据库）library.ox.ac.uk / 210 / ADVANCE，确实查不了。

参见：Z39.50服务器信息（2004-11-4）

要找到源头，看有没有说法。在该馆网站，查到2023年8月图书馆系统更换，数据库名称变化：z39.50 configuration

Host: library.ox.ac.uk
Port: 210 or 1921
Database: 44OXF_INST

于是在Z39.50客户端上重新添加主机，竟然连接就要求登录？上述网页并未提及需要认证呀。

后来才想起，添加数据库时没选“匿名”。修改后，连接主机数据库，查询有结果，可以正常下载记录。

问题解决。

自动主题标引工具Annif

不知道什么时候看到2021年的文章《BIBFRAME作品实体描述的半自动化方法》：

Jim Hahn (2021) Semi-Automated Methods for BIBFRAME Work Entity Description, Cataloging & Classification Quarterly, 59:8, 853-867, DOI: 10.1080/01639374.2021.2014011

摘要：本文报告了在RDF关联数据编辑器Sinopia（https://Sinopia.io）中半自动创建BIBFRAME作品实体描述的机器学习方法的研究。自动主题标引软件Annif配置了美国国会图书馆主题标题（LCSH）词表，该词表来自关联数据服务https://id.loc.gov/。培训语料库由来自IvyPlus POD项目 (https://pod.stanford.edu/) 和Share-VDE (https://wiki.share-vde.org) 的930万个题名和LCSH关联数据参引组成。探索了半自动化流程，以支持和扩展而不是取代专业知识。

内容涉及BIBFRAME、机器学习、语料库、自动主题标引……就编目领域而言，很潮。不过下载到电脑桌面后就忘了，前几天看到，打开仔细看过：文章篇名称“作品实体描述”，实际只是提供“主题”；“半自动化方法”，指根据文献题名，由自动主题标引软件Annif给出建议的主题，编目员决定是否采用。其实主题标引建议，对MARC编目也同样适用。

本文围绕两个工具：一、Annif，根据文献题名建议主题；二，BIBFRAME编辑器Sinopia，通过API选择或不选择建议的主题，需要解决编辑器功能问题。以下结合本文了解Annif使用方法。

Annif（https://annif.org/）是芬兰国家图书馆开发的自动主题标引和分类工具。最新版本Annif 1.0.2（2024年2月2日）。

实际使用有3种途径：1、命令行界面，2、简洁的Web UI（网站主页有试用），3、微服务风格的REST API。

使用方法（四步骤）

1、选择主题词表

Annif结合使用现有的自然语言处理和机器学习工具，包括TensorFlow、Omikuji、fastText和Gensim。它是多语言的（网站演示3种语言即芬兰语、瑞典语、英语），可以支持任何主题词表（SKOS或简单的TSV格式）。

本文使用LCSH，下载自 https://id.loc.gov/。由于LCSH文件格式没有Annif支持的TTL语法，作者使用RDF语法库进行转换，并在GitHub上公开SKOS LCSH TTL转换的输出。

2、根据训练数据准备语料库。本文使用两个训练语料库：

（1）宾夕法尼亚大学图书馆的130万条带有题名 (245 $a) 和相关的关联数据主题 (650 $0 uri) 的记录的元数据集，数据由Share-VDE作过URI增强处理。

（2）IvyPlus开放数据平台（POD）和Share-VDE的930万题名和主题关联数据。Share-VDE数据来源于合作编目计划（PCC）数据池项目。

3、加载词表并训练模型

首先使用预先标记的测试集评估训练模型。通过使用预先标记的测试，软件将系统地确定基于机器学习的标题[主题]与人工指定的标题的比较方式。PCC成员馆中单独的SDVE强化MARC元数据集提供了测试训练的目标。

通过Scikit学习模型评估，生成归一化折损累计增益（NDCG）分数，前述两个语料库分别得分0.401和0.487。文章称，对于依赖完全自动化机器学习系统的行业来说，预测精度通常接近百分之九十。

4、为新文档建议主题

Annif网站 Web UI 试用可选择显示10、15、20个建议主题。

【话外】第3步预测精度不足，是语料库的问题，不是Annif的问题。由题名预测主题，其不靠谱是可以预料的，最著名的例子是《钢铁是怎样炼成的》。这也就是本文只能“半自动”的主要原因了。

用本文摘要试用Annif网站 Web UI，词表选择YSO Omikuji Bonsai English，建议的10个主题如下：

lists of subject headings
subject indexing
subject cataloging
semantic web
linking
thesauri
linked open data
metadata
machine learning
computer programmes

提到Annif的相关博文：

荷兰国家图书馆白皮书《探索自动生成元数据的可能性》（2019-9-16）（根据受控词表自动分配关键词的实例之一）
SWIB19：语义网在图书馆会议（报告概要）（2019-11-20）（SWIB19培训的5个语义网/关联数据工具之一）

ISBDM演示网站

《ISBD载体表现》（ISBDM）编制中，将以在线形式发布。参见：ISBDM及2023-2024评审计划（2024-2-5）

目前演示网站已可访问，浏览后感觉不错。可谓取RDA之长、避RDA之短，毕竟ISBDM工作组主席，也是现任RDA指导委员会主席。比如：

没有编号，有 URL 形式的唯一标识符（如某“说明”元素URL：https://www.iflastandards.info/ISBDM/docs/statements/1029.html），但URL没有细化到具体规定/条款。
编排可供浏览。除网站首行的主菜单，还有侧栏导航。内容页的侧栏为多层导航，包括概述及各级元素，两次单击即可达具体内容页，直观易用（对比RDA没有侧栏导航，只显示具体内容，会让人不知所处位置、不明还有哪些相关内容）。
页面简洁：具体内容以蓝底色/橙底色分块显示（没有如RDA突出设置”选项”）；“示例”点击展开/关闭，方便快速浏览所有规定。

作为IFLA标准，ISBDM应该会是免费的。因此“开放编目规则”（ORC）应该没什么必要了。虽然实际采用ISBDM应该还需相应的应用纲要（RDA也需要）。参见：《开放编目规则》（ORC）网站发布（2023-6-12）

ISBD for Manifestation (iflastandards.info)

【ISBDM主菜单】[九部分/编号为方便说明自拟]

参见：《载体表现ISBD》（ISBDM）进展（2023-4-22）

[1] Introduction 导论（信息源，元数据用途和处理）
[2] Assessment 评估（在开始创建元数据之前，编目员应该做出一些决定）
[3] Statements 说明（转录，信息来自载体表现本身）
[4] Notes 附注（编目员对载体表现如何描述自身的解释）
[5] Attributes 属性（用预先协调的术语或注释描述的载体表现的内在特征）
[6] Relationships 关系（载体表现与其他图书馆实体的关系）
[7] Values 取值（词表）
[8] Glossary 术语表
[9] Examples 示例（完整记录示例）

其中[1-2] 为引言，[3-6]为元素，[7-9]为增强。

【元素页面内容】[三部分/编号为方便说明自拟]

[A]元素参考 Element reference [表格]：定义，范围说明，定义域，值域，元素子类型、元素超类型

[B]其他信息 Additional information [蓝底色]

参见 See also（其他元素）

元素取值 Element values

字符串编码方案 String encoding schemes (SES)

[C]规定 Stipulations [橙底色]：红字*=必备；示例（链接到[9]完整示例）