新西兰实施官方RDA并更新MARC

2024年8月1日开始,新西兰国家图书馆(NLNZ)将使用官方RDA工具包来描述印刷和数字专著,并计划在年底前用于所有格式

National Library of New Zealand Using Official RDA Toolkit. 2024-8-7. https://www.rdatoolkit.org/news/rda/national-library-new-zealand-using-official-rda-toolkit

新RDA于2020-12-15切换为官方版,印象中这是RDA官网上首次报道开始实施官方RDA的国家——不过据RDA指导委员会的更广泛社区参与专员周小玲称已有多国实施。

参见:听周小玲讲座:RDA的发展和更新(实施与翻译)(2024-7-17)/posts/2024/0717/6275

NLNZ实施官方RDA的相关资料

MARC字段使用变化

实施官方RDA工具包时对MARC记录进行更改,目的是在将来离开MARC以实现关联数据时,改进元数据的一致性和结构

具体来说,就是使用因RDA更新的MARC字段,并采用相应的RDA取值词表。特别值得注意的是,有两点希望在2025年完成改变,一是停用300$b、以340字段取代,二是停用1XX、均用7XX(理由是RDA从无“主要款目”的概念)。另外由于引入758字段,不再做130/240。比较遗憾的是,示例中一些无效标点、尤其是句末“.”仍然保留。

变化可从与原文件不同的角度,概括为如下四个方面【W=作品,E=内容表达,M=载体表现】

一、使用更多3XX字段/子字段:以官方RDA的4种记录方法来说,从“记录非结构化描述”变为“记录结构化描述”

334 – Mode of Issuance(M-发行方式,新增)334 ## ǂa single unit ǂ2 rdami

335 – Extension Plan(W-扩展计划,新增) 335 ## ǂa static plan ǂ2 rdaep

340 – Physical Medium(物理媒介)

  • 340 ## ǂg colour ǂp illustrations(M-色彩内容/插图内容,重复/将代替)300 ## ǂb colour illustrations(希望停止使用300$b)
  • 340 ## ǂa shellac ǂ2 rdamat(M-材料,代替)007 sducsmcnnmslne

345 – Moving Image Characteristics(动态图像特征)

  • 345 ## ǂc 16:9 ǂd Wide screen(E-纵横比,代替)500 ## $a Aspect ratio: widescreen (16:9).

二、使用专属字段

532 – Accessibility Note(M-无障碍内容)

  • 532 8# ǂa Closed captions for the hearing impaired.(代替“语言”)546 ## Closed captions for the hearing impaired.

758 – Resource Identifier(资源标识符;4种记录方法之“记录IRI”)

  • 758 ## ǂ4 http://rdaregistry.info/Elements/m/P30139 ǂi Expression manifested: ǂa Singh, Nalini, 1977- Archangel’s shadows. English(M-载体表现体现的内容表达/作品,新增;将不再加130/240字段)

三、采用官方RDA术语:

1、术语来源代码ǂ2:采用官方RDA词表编码方案(VES)。如上述3XX中的示例,再如:

336 ## ǂa text ǂ2 rdaco(代替原LC代码表:ǂ2 rdacontent)

2、1XX 和 7XX 字段中的关系说明语:改用官方RDA元素标签。如:

100 ǂa Mahy, Margaret, ǂd 1936-2012, ǂe author person.(代替原RDA:ǂe author.)另外,希望不再用1XX,均用7XX

3、新增本地字段,记录“合集载体表现”的类型:

931 ## ǂa collection aggregate

931 ## ǂa parallel aggregate

四、合订题名不用245ǂb,而是使用ISBD标点中没有的“+”分隔(因为无总题名合集的各组成部分题名共同构成“正题名”?)

正题名-无总题名的“合集”题名:245 00 ǂa Tilly meets a stranger + Ka tūtaki a Tilly i te tauhou(M-正题名)

人工智能技术在目录和元数据领域的应用

上篇博文翻译了PCC人工智能和机器学习战略规划任务组最终报告的“执行摘要”:

PCC Task Group on AI and Machine Learning for Cataloging and Metadata: Final Report. 2024-4-15. [30页]. https://www.loc.gov/aba/pcc/taskgroup/TG-Strategic-Planning-AI-final-report.pdf

参见:PCC人工智能和机器学习战略规划任务组最终报告(2024-8-10)/posts/2024/0810/6285

该小组的主要工作是2024年3月在相关邮件组进行的一项问卷调查(环境扫描),调查结果分析占据了最终报告一半篇幅。还是让Kimi(https://kimi.ai)帮着详细解读全文。

Kimi文件解读功能升级,初读后会给出3个提示问题,点击即可继续解读(如此循环)。同一文件,多次上传,Kimi给出的提示问题不尽相同,而回复也不完全相同。感觉每个问题都可以是研究论题,下述问题就是个好论题,回复结合了调查问卷分析中的内容。2次回复略有不同,同录于下。

报告中提到的AI和ML技术在目录和元数据领域的具体应用有哪些?

  • (回复1)报告中提到了AI和ML技术在目录和元数据领域的一些具体应用,包括但不限于以下几个方面:

1. **自动化例行技术服务任务**:使用AI技术帮助自动化图书馆目录和元数据工作中的重复性任务。

2. **分配主题词和分类**:使用机器学习或大型语言模型(LLM)来帮助分配主题词或分类标记,例如使用Annif工具自动分配主题词。

3. **文本分类或聚类**:应用机器学习工具对文本进行分类或聚类,以改善数字资源的主题索引。

4. **创建训练数据集**:使用图书馆管理的书目记录或其他数据创建训练数据集,用于训练AI模型。

5. **改进现有元数据**:使用机器学习工具识别和优先处理需要改进的现有元数据。

6. **生成知识图谱或链接数据实体**:使用AI工具创建知识图谱或链接数据,以增强资源的描述和发现。

7. **生成描述性元数据**:使用AI技术生成书籍或其他资源的描述性元数据。

8. **使用AI生成书目记录**:例如,使用ChatGPT生成书目记录的草稿。

9. **使用AI进行元数据修复**:如使用AI工具批量更新地理空间元数据。

10. **标准化项目描述**:使用AI技术根据特定标准(如ANSI/NISO Holdings规格)标准化项目描述,并增强缺失的时间顺序信息。

11. **OCR和元数据输入**:使用AI进行光学字符识别(OCR),并将扫描的文本转换为符合特定格式的元数据。

报告还指出,尽管一些机构在这些领域取得了不同程度的成功,但也有报告失败或结果不尽人意的情况,以及对AI作为目录工具能力的普遍不信任。此外,报告强调了在实施AI和ML技术时需要考虑的伦理问题,如数据隐私、安全性、偏见和错误信息等

  • (回复2)报告中提到了多种人工智能(AI)和机器学习(ML)在目录和元数据工作中的应用,具体包括:

1. 自动化常规技术服务任务:使用AI技术帮助自动化图书馆目录和元数据工作中的重复性任务。

2. 分配主题词或术语:使用机器学习或大型语言模型(LLMs)来分配主题词或术语,例如使用Annif平台自动为图书馆资源分配主题词。

3. 文本分类或聚类:应用机器学习工具对文本进行分类或聚类,以改善数字资源的主题索引。

4. 创建训练数据集:使用图书馆管理的书目记录或其他数据创建训练数据集,用于训练AI模型。

5. 识别和优先处理需要改进的元数据:使用机器学习工具识别现有元数据中需要改进的部分。

6. 创建知识图谱或链接数据实体:使用AI/机器学习工具生成知识图谱或链接数据实体。

7. 生成描述性元数据:使用AI技术生成书籍或其他资源的描述性元数据。

8. 使用AI编写代码或脚本:帮助自动化重复性任务,例如使用ChatGPT或其他AI助手。

9. 使用AI增强记录:在电子资源记录知识库中使用AI增强记录,提高元数据质量。

10. 使用AI进行元数据修复:例如,使用ChatGPT进行地理空间元数据的修复。

11. 使用AI进行标准化和增强:例如,使用AI标准化项目描述并增强缺失的时间顺序信息。

12. 使用AI进行主题分析和分类:尽管报告中提到目前LLMs在这方面尚未成熟,但这是未来发展的一个方向。

报告还指出,尽管有些应用已经取得了不同程度的成功,但也有一些尝试失败或结果不尽人意,显示出对AI作为目录工具能力的普遍不信任。此外,报告强调了在实施AI和ML技术时需要清晰的沟通、资源投入、跨学科合作以及对伦理问题的深思熟虑

PCC人工智能和机器学习战略规划任务组最终报告

PCC人工智能和机器学习战略规划任务组,如其名称所示,这个小组的任务是为合作编目项目(PCC)制定人工智能(AI)和机器(ML)学习的“战略规划”。最终报告2024-5-9通过,政策委员会将根据建议修改PCC的2023-2027年战略方向,另将成立一个新的工作组来执行建议的行动

参见:PCC 2023-2027战略方向(2023-3-24)(只翻译了6个SD(战略方向)、省略了其下具体行动(Actions),本报告更新的是若干“行动”)

PCC Task Group on AI and Machine Learning for Cataloging and Metadata: Final Report. 2024-4-15. [30页]. https://www.loc.gov/aba/pcc/taskgroup/TG-Strategic-Planning-AI-final-report.pdf

小组的主要工作是2024年3月在相关邮件组进行的一项问卷调查(环境扫描),调查结果分析构成了最终报告的主部分。

执行摘要转录报告正文相关内容,包括了小组主要成果。翻译如下:

— Executive Summary 执行摘要

2023年12月,PCC编目和元数据人工智能和机器学习任务组被任命对PCC社区进行环境扫描【附录B 职责】,以收集AI对编目和元数据操作的当前活动和影响的快照。该调查于2024年3月进行【附录D 问卷】,共收到193份回复。根据这些回应,工作组为PCC制定了一套建议和潜在的行动项目,以支持、教育和协调围绕AI和编目的工作。

此外,工作组还收集了一套关于AI和编目的初步资源【附录C】,将通过PCC Wiki共享。我们设想这个维基空间是使用AI和ML的编目从业者之间进行交流和协作的地方。

在我们的工作过程中,工作组确定了一些总体主题,随着PCC在这一领域的工作取得进展,这些主题将被考虑在内。这些主题为工作组提出的建议和行动项目的发展提供了信息。

Themes 主题【Discussion 讨论】

  • 需要与图书馆管理者和更广泛的编目社区明确沟通,AI不是一个容易搞定或省钱的方法。AI和ML技术需要时间和仔细考虑才能有效实施,必须与编目和元数据专家协同完成。
  • 人们普遍担心缺乏资源来调查和实施AI。许多机构都参与了系统迁移、官方RDA和/或关联数据的培训,或者通常资源不足或规模太小,无法实际花时间使用AI。
  • 一些受访者报告称,利用AI和ML来协助编目和元数据工作的不同方面取得了成功(不同程度)。其他人则报告了失败或不令人印象深刻的结果,以及对AI发展成为有用编目工具的能力普遍不信任。
  • 多名受访者表示不信任寻求从AI中获利的商业实体,担心AI将在没有适当审查的情况下强加给我们,或者AI将被用于彻头彻尾的邪恶目的。
  • 其他受访者认为,AI和ML是已经影响我们世界的工具,学习如何最大限度地利用这些工具最符合编目和元数据从业者的利益。
  • 虽然我们无法预测AI将对编目产生什么影响,以及我们在未来1年、5年或10年如何开展工作,但我们需要在编目指南和平台(如RDA和BIBFRAME)的并行开发背景下考虑这些发展,并与适当的利益相关者合作。

Recommendations 建议【Timeline 时间线】

工作组建议成立一个新的工作组,以执行本报告中确定的交付成果。该工作组应具有广泛的代表性,初始任命期为1年。可交付成果反映在下文建议的战略方向行动项目中。

  • 撰写并分发一份关于在编目和元数据工作中使用AI和ML技术的原则声明。目标是传达仔细考虑和规划的必要性,并传达AI不会省钱或消除编目工作。(时间框架:3个月)[SD2.1]
  • 为有兴趣分享知识和尝试AI的编目员建立一个实践社区,该社区应向PCC和非PCC图书馆人员开放。(时间框架:6个月)[SD5.3]
  • 联系那些一直在试验和实施AI相关编目项目的国际图书馆社区。(时间框架:正在进行中)[SD1.1]
  • 进一步充实PCC维基上的AI资源,并根据需要进行更新。(时间框架:正在进行中)[SD5.3]
  • 与NARDAC、ALA、国会图书馆、公平、多样性、包容性、归属和可访问性咨询委员会(EDIBA)以及其他主要利益相关者合作,共同开发编目标准和平台,以共同考虑AI对编目工作未来的影响。(时间框架:正在进行中)[SD1.1]
  • 制定并分发一份最佳实践文件,将AI和ML纳入编目和元数据工作。(时间框架:1年)[SD2.1]
  • 与培训常务委员会(SCT)合作,开发培训资源,以更多地了解或尝试AI。(时间框架:1年)[SD5.3]

Action Items for PCC Strategic Directions PCC战略方向的行动项目【Action Items】

根据PCC战略方向2023-2027,建议采取以下行动项目。行动项目草案以斜体表示。

SD1:与更广泛的元数据利益相关者社区接触

  • 1.1. 扩大与图书馆软件和元数据提供商的合作,包括供应商和开源社区,同时铭记可访问性和通用设计原则
  • 1.1.7. 成立一个任务组,启动参与人工智能(AI)和机器学习(ML)编目和元数据应用开发和实施的利益相关者之间的沟通与合作

SD2:促进技术多元化和持续相关性的文化

  • 2.1. 支持创建和可持续发展各种编码格式/结构/序列化的高质量元数据,包括MARC、BIBFRAME和其他标准
  • 2.1.6支持和促进使用人工智能(AI)和机器学习(ML)进行编目和元数据工作的最佳实践的发展

SD5:评估和改进PCC存储和共享知识的方式

  • 5.3. 制定培训/指导计划,允许所有背景的元数据从业者(无论PCC成员身份如何)在需要时与PCC专业知识接触
  • 5.3.3与培训常务委员会(SCT)合作,开发培训资源,以更多地了解或尝试人工智能