人工智能技术在目录和元数据领域的应用

上篇博文翻译了PCC人工智能和机器学习战略规划任务组最终报告的“执行摘要”:

PCC Task Group on AI and Machine Learning for Cataloging and Metadata: Final Report. 2024-4-15. [30页]. https://www.loc.gov/aba/pcc/taskgroup/TG-Strategic-Planning-AI-final-report.pdf

参见:PCC人工智能和机器学习战略规划任务组最终报告(2024-8-10)/posts/2024/0810/6285

该小组的主要工作是2024年3月在相关邮件组进行的一项问卷调查(环境扫描),调查结果分析占据了最终报告一半篇幅。还是让Kimi(https://kimi.ai)帮着详细解读全文。

Kimi文件解读功能升级,初读后会给出3个提示问题,点击即可继续解读(如此循环)。同一文件,多次上传,Kimi给出的提示问题不尽相同,而回复也不完全相同。感觉每个问题都可以是研究论题,下述问题就是个好论题,回复结合了调查问卷分析中的内容。2次回复略有不同,同录于下。

报告中提到的AI和ML技术在目录和元数据领域的具体应用有哪些?

  • (回复1)报告中提到了AI和ML技术在目录和元数据领域的一些具体应用,包括但不限于以下几个方面:

1. **自动化例行技术服务任务**:使用AI技术帮助自动化图书馆目录和元数据工作中的重复性任务。

2. **分配主题词和分类**:使用机器学习或大型语言模型(LLM)来帮助分配主题词或分类标记,例如使用Annif工具自动分配主题词。

3. **文本分类或聚类**:应用机器学习工具对文本进行分类或聚类,以改善数字资源的主题索引。

4. **创建训练数据集**:使用图书馆管理的书目记录或其他数据创建训练数据集,用于训练AI模型。

5. **改进现有元数据**:使用机器学习工具识别和优先处理需要改进的现有元数据。

6. **生成知识图谱或链接数据实体**:使用AI工具创建知识图谱或链接数据,以增强资源的描述和发现。

7. **生成描述性元数据**:使用AI技术生成书籍或其他资源的描述性元数据。

8. **使用AI生成书目记录**:例如,使用ChatGPT生成书目记录的草稿。

9. **使用AI进行元数据修复**:如使用AI工具批量更新地理空间元数据。

10. **标准化项目描述**:使用AI技术根据特定标准(如ANSI/NISO Holdings规格)标准化项目描述,并增强缺失的时间顺序信息。

11. **OCR和元数据输入**:使用AI进行光学字符识别(OCR),并将扫描的文本转换为符合特定格式的元数据。

报告还指出,尽管一些机构在这些领域取得了不同程度的成功,但也有报告失败或结果不尽人意的情况,以及对AI作为目录工具能力的普遍不信任。此外,报告强调了在实施AI和ML技术时需要考虑的伦理问题,如数据隐私、安全性、偏见和错误信息等

  • (回复2)报告中提到了多种人工智能(AI)和机器学习(ML)在目录和元数据工作中的应用,具体包括:

1. 自动化常规技术服务任务:使用AI技术帮助自动化图书馆目录和元数据工作中的重复性任务。

2. 分配主题词或术语:使用机器学习或大型语言模型(LLMs)来分配主题词或术语,例如使用Annif平台自动为图书馆资源分配主题词。

3. 文本分类或聚类:应用机器学习工具对文本进行分类或聚类,以改善数字资源的主题索引。

4. 创建训练数据集:使用图书馆管理的书目记录或其他数据创建训练数据集,用于训练AI模型。

5. 识别和优先处理需要改进的元数据:使用机器学习工具识别现有元数据中需要改进的部分。

6. 创建知识图谱或链接数据实体:使用AI/机器学习工具生成知识图谱或链接数据实体。

7. 生成描述性元数据:使用AI技术生成书籍或其他资源的描述性元数据。

8. 使用AI编写代码或脚本:帮助自动化重复性任务,例如使用ChatGPT或其他AI助手。

9. 使用AI增强记录:在电子资源记录知识库中使用AI增强记录,提高元数据质量。

10. 使用AI进行元数据修复:例如,使用ChatGPT进行地理空间元数据的修复。

11. 使用AI进行标准化和增强:例如,使用AI标准化项目描述并增强缺失的时间顺序信息。

12. 使用AI进行主题分析和分类:尽管报告中提到目前LLMs在这方面尚未成熟,但这是未来发展的一个方向。

报告还指出,尽管有些应用已经取得了不同程度的成功,但也有一些尝试失败或结果不尽人意,显示出对AI作为目录工具能力的普遍不信任。此外,报告强调了在实施AI和ML技术时需要清晰的沟通、资源投入、跨学科合作以及对伦理问题的深思熟虑

PCC人工智能和机器学习战略规划任务组最终报告

PCC人工智能和机器学习战略规划任务组,如其名称所示,这个小组的任务是为合作编目项目(PCC)制定人工智能(AI)和机器(ML)学习的“战略规划”。最终报告2024-5-9通过,政策委员会将根据建议修改PCC的2023-2027年战略方向,另将成立一个新的工作组来执行建议的行动

参见:PCC 2023-2027战略方向(2023-3-24)(只翻译了6个SD(战略方向)、省略了其下具体行动(Actions),本报告更新的是若干“行动”)

PCC Task Group on AI and Machine Learning for Cataloging and Metadata: Final Report. 2024-4-15. [30页]. https://www.loc.gov/aba/pcc/taskgroup/TG-Strategic-Planning-AI-final-report.pdf

小组的主要工作是2024年3月在相关邮件组进行的一项问卷调查(环境扫描),调查结果分析构成了最终报告的主部分。

执行摘要转录报告正文相关内容,包括了小组主要成果。翻译如下:

— Executive Summary 执行摘要

2023年12月,PCC编目和元数据人工智能和机器学习任务组被任命对PCC社区进行环境扫描【附录B 职责】,以收集AI对编目和元数据操作的当前活动和影响的快照。该调查于2024年3月进行【附录D 问卷】,共收到193份回复。根据这些回应,工作组为PCC制定了一套建议和潜在的行动项目,以支持、教育和协调围绕AI和编目的工作。

此外,工作组还收集了一套关于AI和编目的初步资源【附录C】,将通过PCC Wiki共享。我们设想这个维基空间是使用AI和ML的编目从业者之间进行交流和协作的地方。

在我们的工作过程中,工作组确定了一些总体主题,随着PCC在这一领域的工作取得进展,这些主题将被考虑在内。这些主题为工作组提出的建议和行动项目的发展提供了信息。

Themes 主题【Discussion 讨论】

  • 需要与图书馆管理者和更广泛的编目社区明确沟通,AI不是一个容易搞定或省钱的方法。AI和ML技术需要时间和仔细考虑才能有效实施,必须与编目和元数据专家协同完成。
  • 人们普遍担心缺乏资源来调查和实施AI。许多机构都参与了系统迁移、官方RDA和/或关联数据的培训,或者通常资源不足或规模太小,无法实际花时间使用AI。
  • 一些受访者报告称,利用AI和ML来协助编目和元数据工作的不同方面取得了成功(不同程度)。其他人则报告了失败或不令人印象深刻的结果,以及对AI发展成为有用编目工具的能力普遍不信任。
  • 多名受访者表示不信任寻求从AI中获利的商业实体,担心AI将在没有适当审查的情况下强加给我们,或者AI将被用于彻头彻尾的邪恶目的。
  • 其他受访者认为,AI和ML是已经影响我们世界的工具,学习如何最大限度地利用这些工具最符合编目和元数据从业者的利益。
  • 虽然我们无法预测AI将对编目产生什么影响,以及我们在未来1年、5年或10年如何开展工作,但我们需要在编目指南和平台(如RDA和BIBFRAME)的并行开发背景下考虑这些发展,并与适当的利益相关者合作。

Recommendations 建议【Timeline 时间线】

工作组建议成立一个新的工作组,以执行本报告中确定的交付成果。该工作组应具有广泛的代表性,初始任命期为1年。可交付成果反映在下文建议的战略方向行动项目中。

  • 撰写并分发一份关于在编目和元数据工作中使用AI和ML技术的原则声明。目标是传达仔细考虑和规划的必要性,并传达AI不会省钱或消除编目工作。(时间框架:3个月)[SD2.1]
  • 为有兴趣分享知识和尝试AI的编目员建立一个实践社区,该社区应向PCC和非PCC图书馆人员开放。(时间框架:6个月)[SD5.3]
  • 联系那些一直在试验和实施AI相关编目项目的国际图书馆社区。(时间框架:正在进行中)[SD1.1]
  • 进一步充实PCC维基上的AI资源,并根据需要进行更新。(时间框架:正在进行中)[SD5.3]
  • 与NARDAC、ALA、国会图书馆、公平、多样性、包容性、归属和可访问性咨询委员会(EDIBA)以及其他主要利益相关者合作,共同开发编目标准和平台,以共同考虑AI对编目工作未来的影响。(时间框架:正在进行中)[SD1.1]
  • 制定并分发一份最佳实践文件,将AI和ML纳入编目和元数据工作。(时间框架:1年)[SD2.1]
  • 与培训常务委员会(SCT)合作,开发培训资源,以更多地了解或尝试AI。(时间框架:1年)[SD5.3]

Action Items for PCC Strategic Directions PCC战略方向的行动项目【Action Items】

根据PCC战略方向2023-2027,建议采取以下行动项目。行动项目草案以斜体表示。

SD1:与更广泛的元数据利益相关者社区接触

  • 1.1. 扩大与图书馆软件和元数据提供商的合作,包括供应商和开源社区,同时铭记可访问性和通用设计原则
  • 1.1.7. 成立一个任务组,启动参与人工智能(AI)和机器学习(ML)编目和元数据应用开发和实施的利益相关者之间的沟通与合作

SD2:促进技术多元化和持续相关性的文化

  • 2.1. 支持创建和可持续发展各种编码格式/结构/序列化的高质量元数据,包括MARC、BIBFRAME和其他标准
  • 2.1.6支持和促进使用人工智能(AI)和机器学习(ML)进行编目和元数据工作的最佳实践的发展

SD5:评估和改进PCC存储和共享知识的方式

  • 5.3. 制定培训/指导计划,允许所有背景的元数据从业者(无论PCC成员身份如何)在需要时与PCC专业知识接触
  • 5.3.3与培训常务委员会(SCT)合作,开发培训资源,以更多地了解或尝试人工智能

图书馆AI用例(机器学习)

国际图联关于图书馆与人工智能的声明(2020),附件中介绍了很多早年应用,还提供了2个额外来源(引用形式经本人修改):

  • 62 AI FOR LIBRARIANS: AI use cases / curated by Pirjo Kangas. https://www.aiforlibrarians.com/ai-cases/
  • 63 Wheatley and Hervieux. Artificial intelligence in academic libraries: An environmental scan. Information Services & Use, 39(7):1-10, October 2019.

AI FOR LIBRARIANS网站的“AI用例”,目的不是完整搜罗,而是列出不同类型的示例,提供介绍链接。

作者Pirjo Kangas(芬兰人)2019年在马里兰大学作为富布赖特学者期间,参与了一个专业项目,研究图书馆中的人工智能(AI)用例,当时AI主要是机器学习。主要收录欧美2018-2019年的案例,后续未更新,且相当部分链接已失效,但仍有参考价值。从中可以看到多次出现的“明星”,如芬兰赫尔辛基中央图书馆Oodi、仍在发展的 Annif,其中的美国罗德岛大学图书馆 AI实验室依然在开展活动。

另参见:自动主题标引工具Annif(2024-2-25)

— AI use cases(AI用例) —

[一] 与图书馆工作流程链接的项目【馆内工作】

  • 自动主题索引/分类:

Annif(芬兰国家图书馆)机器学习和杜威十进分类法(挪威国家图书馆):A) 会议报告(NKOS 2019),B) 会议论文(IFLA WLIC 2018)

  • 机器人:

Oodi 虚拟信息助手 (芬兰赫尔辛基中央图书馆,Headai公司开发):A) Medium 上的客户案例,B) 会议论文(IFLA WLIC 2019)【移动应用程序,六个独特的基于AI的推荐器,为不同类型的读者提供阅读建议】

  • 探索/搜索

Iris.AI

Yewno【链接失效】

Pubmed:训练相关性搜索算法

  • 机构库

哈姆雷特(麻省理工学院学位论文集)【推荐相似论文;停留在阿尔法阶段】

JYX 存储库中的自动主题索引 (Annif):会议论文(2018 年)

  • 物流

芬兰赫尔辛基市图书馆的人工智能智能物流管理系统【链接失效,略】

  • 剔旧

自动分类剔旧候选馆藏方法的研究评估(来自美国维思大学的数据集):A) 硕士论文,B) 期刊文章(非开放获取)【训练六个机器学习分类器,以预测每个候选馆藏的“保留”或“剔除”的剔旧决策】

[二] 与图书馆支持其社区的人工智能技能/意识相关的项目【“AI素养”教育】

  • 支持人工智能教育的图书馆

加拿大多伦多图书馆提高公众对AI和LM的认识 【链接失效,略】

  • 支持 AI 探索的图书馆

美国罗德岛大学图书馆 AI实验室【依然存在……】

美国弗里斯科公共图书馆 创客套件【链接失效,略】

  • 图书馆内的AI项目

斯坦福图书馆 图书馆 AI 计划【链接失效,略】

[三] 艺术项目

  • 在图书馆空间中使用AI的艺术项目:

笑屋(美国剑桥公共图书馆,2018)【链接失效,略】

图书馆的其他智能(芬兰赫尔辛基Oodi,2019)