若有所思 – 第 3 页 – 编目精灵III

德语国家标准RDA DACH

原RDA于2010年发布，之后德语国家（DACH=D-A-CH=德国、奥地利、瑞士）有对应于“政策声明”的DACH应用规则和解释，用于实施RDA。随着3R计划完成、新RDA成为官方RDA，必须更新原文档。

在2020年9月召开的“RDA在欧洲”会议上，德语国家的3个报告，对RDA DACH（当时称“DACH手册”）有详细介绍。当时的计划是：2021年1月开始编写，预计需要1.5-2年（2022年7-12月）完成。参见：2020年“RDA在欧洲”虚拟会议：从头开始（2020-10-13）

2023年8月，与官方RDA对应的德语国家标准——RDA DACH——以网络形式发布首个版本（编号2023/1）。随即，面向具有RDA编目经验者的培训于2023年9月开始（培训资料https://sta.dnb.de/doc/STA-HILFE-TRM）。面向初学者的培训仍有待开发，实施时间不明。

在2023年10月的会议上，有报告详细介绍RDA DACH：

Barbara Pfeifer. RDA DACH. in: RDA: Think Globally, Act Locally, 16 October 2023. 34 slides.

RDA DACH. https://sta.dnb.de/doc/RDA

RDA DACH是德语国家开发的RDA标准。随着新RDA工具包的推出，开发部对规则进行了审查，对其进行了小范围的修订，并以新的概念提出。RDA规则、DACH应用规则(DACH-AWR)和DACH解释(DACH ERL)合并在RDA DACH中的一个位置。同时，RDA工具包没有翻译成德语，可通过RDA DACH的链接访问英文版。以前的记录和工作辅助工具的文本被集成或链接到标准RDA DACH中。在RDA DACH中，各个部分是相关的；文本在一个地方被公式化，但也在其他上下文中显示。

尚未采用的RDA新概念。RDA工具包中引入的“历时作品（Diachronic Works）”、“合集（Aggregate）”和“代表性内容表达（Representative Expression）”等概念尚未在RDA DACH中采用。开发部将在未来的监管和标准化工作中对这些概念进行审查和评估。

RDA DACH标准提供了什么？

RDA DACH标准打开了RDA规则手册：[1]提供有关RDA基础模型的信息；[2]解释RDA术语；[3]以结构化的形式呈现RDA规则手册的内容，并与德语区相协调；[4]提供应用纲要。
在RDA DACH标准中，您将找到以下问题的答案：[1]如何描述手头对象？[2]手头对象属于哪种资源类型？[3]描述资源需要哪些元素？[4]描述资源需要哪些其他元素？[5]需要使用标准化词表吗？[6]如何与相关个人和实体建立关系？[7]如何与其他资源建立关系？[8]查找资源需要哪些搜索项？

RDA DACH 主菜单两选项，分别对应规则与取值词表

RDA DACH：[1]概述；[2] RDA元素；[3]资源类型；[4]应用纲要；[4] RDA索引
GND：[1]句子类型和实体编码；[2]数据字段；[3]关系代码；[4]标准化词表；[5]GND分类；[6] GND索引

GND是德语区档案馆、图书馆、博物馆和类似记忆机构的联合项目。它服务于联合开发和统一使用一组标准化词表，用于馆藏和资源的索引。GND中表示的实体由结构化属性唯一标识。这就有可能参考这些资料，并提高资源的可查找性以及当地目录和门户网站之间的网络联系。/ GND由德国国家图书馆（DNB）合作管理和运营。/ 根据CC0 1.0许可，GND规范数据以MARC 21 authority、MARC 21 xml和RDFxml格式免费提供给所有相关方。

OCLC编目培训：虚拟AskQC办公时间

OCLC的WorldCat元数据质量团队举办的免费网上活动 Virtual AskQC Office Hours (VAOH)，每月一个相关话题（2个不同时间、相同内容，每次1小时），很好在线编目培训资料：

AskQC https://help.oclc.org/WorldCat/Metadata_Quality/AskQC

AskQC 即 Ask Quality Control（询问质量控制），可以发送邮件到 AskQC@oclc.org，向OCLC元数据质量人员发送有关编目政策、标准和实践的问题。

从网页看，VAOH始于2018年，内容结合实践发展，有与OCLC相关的，也有通用的。比如2018年1月话题是：260字段到264字段的转换。

参加活动需注册，结束后，录像、PPT、问答（AskQC office hour member Q&A）、活动中提及资源网址（AskQC office hour URLs），都会上网，可以很方便地利用。

即将举行的2024年3月话题：面向门外汉的乐谱编目（Music Score Cataloging for the Uninitiated）

你对乐谱编目的经验太少吗？但预计你会对越来越多的积压乐谱进行编目？你从未学会阅读乐谱，一想到要把乐谱编目，你会害怕吗？OCLC与音乐图书馆协会和音乐OCLC用户小组的联络人Morris Levy将主持此次会议，会议将包括音乐编目资源的概述、相关MARC领域的回顾以及古典音乐和流行音乐的例子。

2024年上半年其他几次的话题分别是（1-2月资料已经上网）：

1月，阅读LC规范记录（为使用LC名称和主题规范文件的非NACO编目员设计）
2月，CIP记录的生命周期（关于美国国会图书馆在版编目）
4月，PCC和OCLC：概述和新功能（就使用BIBCO记录进行讨论）
5月，谁是您的受众？目录记录受众的方法（介绍521和385等MARC字段、定长字段值以及记录这些信息的好处）
6月，定制MARC记录、使用Collection Manager交付（生成WorldCat更新记录）

自动主题标引工具Annif

不知道什么时候看到2021年的文章《BIBFRAME作品实体描述的半自动化方法》：

Jim Hahn (2021) Semi-Automated Methods for BIBFRAME Work Entity Description, Cataloging & Classification Quarterly, 59:8, 853-867, DOI: 10.1080/01639374.2021.2014011

摘要：本文报告了在RDF关联数据编辑器Sinopia（https://Sinopia.io）中半自动创建BIBFRAME作品实体描述的机器学习方法的研究。自动主题标引软件Annif配置了美国国会图书馆主题标题（LCSH）词表，该词表来自关联数据服务https://id.loc.gov/。培训语料库由来自IvyPlus POD项目 (https://pod.stanford.edu/) 和Share-VDE (https://wiki.share-vde.org) 的930万个题名和LCSH关联数据参引组成。探索了半自动化流程，以支持和扩展而不是取代专业知识。

内容涉及BIBFRAME、机器学习、语料库、自动主题标引……就编目领域而言，很潮。不过下载到电脑桌面后就忘了，前几天看到，打开仔细看过：文章篇名称“作品实体描述”，实际只是提供“主题”；“半自动化方法”，指根据文献题名，由自动主题标引软件Annif给出建议的主题，编目员决定是否采用。其实主题标引建议，对MARC编目也同样适用。

本文围绕两个工具：一、Annif，根据文献题名建议主题；二，BIBFRAME编辑器Sinopia，通过API选择或不选择建议的主题，需要解决编辑器功能问题。以下结合本文了解Annif使用方法。

Annif（https://annif.org/）是芬兰国家图书馆开发的自动主题标引和分类工具。最新版本Annif 1.0.2（2024年2月2日）。

实际使用有3种途径：1、命令行界面，2、简洁的Web UI（网站主页有试用），3、微服务风格的REST API。

使用方法（四步骤）

1、选择主题词表

Annif结合使用现有的自然语言处理和机器学习工具，包括TensorFlow、Omikuji、fastText和Gensim。它是多语言的（网站演示3种语言即芬兰语、瑞典语、英语），可以支持任何主题词表（SKOS或简单的TSV格式）。

本文使用LCSH，下载自 https://id.loc.gov/。由于LCSH文件格式没有Annif支持的TTL语法，作者使用RDF语法库进行转换，并在GitHub上公开SKOS LCSH TTL转换的输出。

2、根据训练数据准备语料库。本文使用两个训练语料库：

（1）宾夕法尼亚大学图书馆的130万条带有题名 (245 $a) 和相关的关联数据主题 (650 $0 uri) 的记录的元数据集，数据由Share-VDE作过URI增强处理。

（2）IvyPlus开放数据平台（POD）和Share-VDE的930万题名和主题关联数据。Share-VDE数据来源于合作编目计划（PCC）数据池项目。

3、加载词表并训练模型

首先使用预先标记的测试集评估训练模型。通过使用预先标记的测试，软件将系统地确定基于机器学习的标题[主题]与人工指定的标题的比较方式。PCC成员馆中单独的SDVE强化MARC元数据集提供了测试训练的目标。

通过Scikit学习模型评估，生成归一化折损累计增益（NDCG）分数，前述两个语料库分别得分0.401和0.487。文章称，对于依赖完全自动化机器学习系统的行业来说，预测精度通常接近百分之九十。

4、为新文档建议主题

Annif网站 Web UI 试用可选择显示10、15、20个建议主题。

【话外】第3步预测精度不足，是语料库的问题，不是Annif的问题。由题名预测主题，其不靠谱是可以预料的，最著名的例子是《钢铁是怎样炼成的》。这也就是本文只能“半自动”的主要原因了。

用本文摘要试用Annif网站 Web UI，词表选择YSO Omikuji Bonsai English，建议的10个主题如下：

lists of subject headings
subject indexing
subject cataloging
semantic web
linking
thesauri
linked open data
metadata
machine learning
computer programmes

提到Annif的相关博文：

荷兰国家图书馆白皮书《探索自动生成元数据的可能性》（2019-9-16）（根据受控词表自动分配关键词的实例之一）
SWIB19：语义网在图书馆会议（报告概要）（2019-11-20）（SWIB19培训的5个语义网/关联数据工具之一）