PCC人工智能和机器学习战略规划任务组最终报告

PCC人工智能和机器学习战略规划任务组,如其名称所示,这个小组的任务是为合作编目项目(PCC)制定人工智能(AI)和机器(ML)学习的“战略规划”。最终报告2024-5-9通过,政策委员会将根据建议修改PCC的2023-2027年战略方向,另将成立一个新的工作组来执行建议的行动

参见:PCC 2023-2027战略方向(2023-3-24)(只翻译了6个SD(战略方向)、省略了其下具体行动(Actions),本报告更新的是若干“行动”)

PCC Task Group on AI and Machine Learning for Cataloging and Metadata: Final Report. 2024-4-15. [30页]. https://www.loc.gov/aba/pcc/taskgroup/TG-Strategic-Planning-AI-final-report.pdf

小组的主要工作是2024年3月在相关邮件组进行的一项问卷调查(环境扫描),调查结果分析构成了最终报告的主部分。

执行摘要转录报告正文相关内容,包括了小组主要成果。翻译如下:

— Executive Summary 执行摘要

2023年12月,PCC编目和元数据人工智能和机器学习任务组被任命对PCC社区进行环境扫描【附录B 职责】,以收集AI对编目和元数据操作的当前活动和影响的快照。该调查于2024年3月进行【附录D 问卷】,共收到193份回复。根据这些回应,工作组为PCC制定了一套建议和潜在的行动项目,以支持、教育和协调围绕AI和编目的工作。

此外,工作组还收集了一套关于AI和编目的初步资源【附录C】,将通过PCC Wiki共享。我们设想这个维基空间是使用AI和ML的编目从业者之间进行交流和协作的地方。

在我们的工作过程中,工作组确定了一些总体主题,随着PCC在这一领域的工作取得进展,这些主题将被考虑在内。这些主题为工作组提出的建议和行动项目的发展提供了信息。

Themes 主题【Discussion 讨论】

  • 需要与图书馆管理者和更广泛的编目社区明确沟通,AI不是一个容易搞定或省钱的方法。AI和ML技术需要时间和仔细考虑才能有效实施,必须与编目和元数据专家协同完成。
  • 人们普遍担心缺乏资源来调查和实施AI。许多机构都参与了系统迁移、官方RDA和/或关联数据的培训,或者通常资源不足或规模太小,无法实际花时间使用AI。
  • 一些受访者报告称,利用AI和ML来协助编目和元数据工作的不同方面取得了成功(不同程度)。其他人则报告了失败或不令人印象深刻的结果,以及对AI发展成为有用编目工具的能力普遍不信任。
  • 多名受访者表示不信任寻求从AI中获利的商业实体,担心AI将在没有适当审查的情况下强加给我们,或者AI将被用于彻头彻尾的邪恶目的。
  • 其他受访者认为,AI和ML是已经影响我们世界的工具,学习如何最大限度地利用这些工具最符合编目和元数据从业者的利益。
  • 虽然我们无法预测AI将对编目产生什么影响,以及我们在未来1年、5年或10年如何开展工作,但我们需要在编目指南和平台(如RDA和BIBFRAME)的并行开发背景下考虑这些发展,并与适当的利益相关者合作。

Recommendations 建议【Timeline 时间线】

工作组建议成立一个新的工作组,以执行本报告中确定的交付成果。该工作组应具有广泛的代表性,初始任命期为1年。可交付成果反映在下文建议的战略方向行动项目中。

  • 撰写并分发一份关于在编目和元数据工作中使用AI和ML技术的原则声明。目标是传达仔细考虑和规划的必要性,并传达AI不会省钱或消除编目工作。(时间框架:3个月)[SD2.1]
  • 为有兴趣分享知识和尝试AI的编目员建立一个实践社区,该社区应向PCC和非PCC图书馆人员开放。(时间框架:6个月)[SD5.3]
  • 联系那些一直在试验和实施AI相关编目项目的国际图书馆社区。(时间框架:正在进行中)[SD1.1]
  • 进一步充实PCC维基上的AI资源,并根据需要进行更新。(时间框架:正在进行中)[SD5.3]
  • 与NARDAC、ALA、国会图书馆、公平、多样性、包容性、归属和可访问性咨询委员会(EDIBA)以及其他主要利益相关者合作,共同开发编目标准和平台,以共同考虑AI对编目工作未来的影响。(时间框架:正在进行中)[SD1.1]
  • 制定并分发一份最佳实践文件,将AI和ML纳入编目和元数据工作。(时间框架:1年)[SD2.1]
  • 与培训常务委员会(SCT)合作,开发培训资源,以更多地了解或尝试AI。(时间框架:1年)[SD5.3]

Action Items for PCC Strategic Directions PCC战略方向的行动项目【Action Items】

根据PCC战略方向2023-2027,建议采取以下行动项目。行动项目草案以斜体表示。

SD1:与更广泛的元数据利益相关者社区接触

  • 1.1. 扩大与图书馆软件和元数据提供商的合作,包括供应商和开源社区,同时铭记可访问性和通用设计原则
  • 1.1.7. 成立一个任务组,启动参与人工智能(AI)和机器学习(ML)编目和元数据应用开发和实施的利益相关者之间的沟通与合作

SD2:促进技术多元化和持续相关性的文化

  • 2.1. 支持创建和可持续发展各种编码格式/结构/序列化的高质量元数据,包括MARC、BIBFRAME和其他标准
  • 2.1.6支持和促进使用人工智能(AI)和机器学习(ML)进行编目和元数据工作的最佳实践的发展

SD5:评估和改进PCC存储和共享知识的方式

  • 5.3. 制定培训/指导计划,允许所有背景的元数据从业者(无论PCC成员身份如何)在需要时与PCC专业知识接触
  • 5.3.3与培训常务委员会(SCT)合作,开发培训资源,以更多地了解或尝试人工智能

如何为用AI软件生成的资源做编目

随着新一轮人工智能(AI)软件的兴起,开始出现用AI软件生成的图书(纸书或电子书)。2024年初,合作编目项目(PCC)标准委员会编写了一个指导性文件《PCC常见问题解答:为用AI软件生成的资源做编目》,包括4个问题解答及8个实际资源的示例,及时又实用。

以下为此FAQ的翻译及简单备注(示例仅列1)。概而言之:人类行为者仍视情况使用100/700字段,所用AI软件作为相关作品(使用130/730字段),可添加653主题/655体裁术语表明为AI软件生成,必要时用附注说明。

PCC FAQ: Cataloging of Resources Generated Using Artificial Intelligence (AI) Software / PCC Standing Committee on Standards. 2024-2-8. https://www.loc.gov/aba/pcc/scs/documents/FAQ-Cataloging-of-Resources-Generated-by-Artificial-Intelligence

1、AI软件程序是否可以被视为作者、艺术家、作曲家、插画家、翻译人员或其他与资源相关的行为者?【AI软件不是行为者,是作品、用130/730字段】

根据《主题标题手册》备忘录H 405(以名称或主题规范档建立某些实体),计算机程序和软件是在名称规范档中建立的“第一组”实体,通常使用MARC字段130(题名)。

将用于创建资源的命名AI或生成式计算机程序视为相关作品,而不是作为行为者,即使编目的资源将AI或其他计算机程序作为创建者或贡献者。

2、如何对待编程或操作用于生成资源的AI软件的行为者?【人类行为者、用100/700字段;做附注】

当已知时,记录负责操作、提示、编辑在编资源中的命名AI或生成式计算机程序的输出的个人或集体行为者,作为相关行为者。与AI生成的资源相关联的人类行为者通常可以呈现为作者、编者、编译者或提示者,也可以是未命名的。

负责开发、编程或托管AI软件的行为者也可以被视为与正在编目的资源相关的行为者。这些行为者也可以作为相关行为者记录在软件的规范记录中(见示例8[规范记录])。

如果与资源相关联的行为者的具体角色不明确,使用通用元素名称,如“创建者”或“贡献者”,或者不要分配关系说明语。参阅《在书目记录中应用关系说明语培训手册》的指导方针4和5。

如有必要,在附注中说明归因。

3、AI的名称可以被认为是人类行为者的笔名吗?【作为个人笔名;做附注】

一般来说,将软件名称本身视为相关作品,而不是软件操作员或程序员的笔名。如果软件有多个名称,这些名称可以被视为软件的变异题名。

如果使用AI软件创建的资源以笔名显示,则将其视为人类行为者的笔名,而不是软件的笔名。如果由人类行为者在不使用AI软件的情况下创建的资源仍然虚拟地呈现为由AI软件创建的资源,那么任何虚构的AI名称也可能被视为人类行为者的笔名。参阅《LC/PCC为使用笔名的个人创建名称规范记录(NAR)的做法》。

如有必要,在附注中说明归因。

4、还能如何传达AI软件在创建或贡献资源中的作用?【653主题/655体裁术语】

考虑通过相关主题和/或体裁术语来传达AI软件在创建资源中的作用。参见示例1、5和6。

Example 1:

  • 245 00 $a I am code : $b an artificial intelligence speaks / $c poems by code-davinci-002;editedby Brent Katz, Josh Morgenthau, and Simon Rich.
  • 500 __ $a The Code-davinci-002 program, developed by OpenAI, was used to generate the poetry.【由OpenAI开发的Code-davinci-002程序用于生成诗歌】
  • 655 _7 $a Computer poetry. $2 lcgft【索引词-体裁】
  • 700 1_ $a Katz, Brent, $e editor.
  • 700 1_ $a Morgenthau, Josh, $e editor.
  • 700 1_ $a Rich, Simon, $e editor.
  • 730 0_ $i Related work: $a Code-davinci-002.

【Example 2-8 略】

RDA元数据指导文档(MGD):时间段

RDA元数据指导文档(MGD)是美国为实施新RDA,与《美国国会图书馆-合作编目项目政策声明》(LC-PCC PS)配套使用的文档,提供新RDA的详细说明与示例,有助于以新RDA完成编目工作。

MGD包含包括20多个叙述性MGD,200多个一对一MGD,时间段(Timespan)是叙述性MGD之一。

之前写过的MGD相关博文:

Timespan (Official RDA Toolkit — LC-PCC Metadata Guidance Document, 2022-01-31)

【总结】

  • 时间段(Timespan)是《IFLA图书馆参考模型》(LRM)引入的新概念,是新的RDA实体。
  • 在原RDA中,时间(日期,Date)是“属性”。由于新RDA的时间段是实体,与时间有关的元素就成为各实体与时间段实体之间的“关系”。
  • 时间段有2种记录方式:结构化描述,应用扩展日期时间格式(EDTF)或ISO 8601(如:1971-12-19);非结构化描述,转录载体表现显示的日期。(对于元素“时间段标识符”(identifier for timespan),应该归入第3种记录方式“标识符”?)
  • 有关日期/时间段,原RDA和新RDA虽然在概念上有变化,但记录方法没有变化,即编目时做书目/规范记录没有变化。
  • 相关的LC-PCC PS有意保持开放,即不做实质性规定,而是指示编目员应用选项或行使编目员判断。应用“记录由应用纲要指定的元素”选项,意味着编目机构可以建立自己的记录时间段的政策和实践。

元数据指导文档(MGD):时间段

MGD汇总了所有13个RDA实体(包括时间段本身)的时间段相关元素(合计57个):

  • (时间段的)属性 Attribute(3个):类别 category of timespan;附注 note on timespan;相关实体related entity of timespan
  • 命名 Nomen(10个):称谓 appellation of timespan(下位元素3个:access point for timespan,name of timespan,identifier for timespan);检索点 access point for timespan,规范检索点 authorized access point for timespan,变异检索点 variant access point for timespan(用于结构化描述;尚未实施);名称 name of timespan,首选名称 preferred name of timespan,变异名称 variant name of timespan(用于非结构化描述);标识符 identifier for timespan。使用日期 date of usage of(见:Nomen > date of usage);相关 related nomen of timespan(不著录)
  • 时间段 Timespan(7个):开始 beginning / beginning of,结束 ending / ending of;部分 part of timespan / part timespan;相关 related timespan of timespan
  • 作品 Work(7个) :date of work of;纪元 epoch of,春分/秋分 equinox of;主题 subject timespan of;timespan described in;学位年 year degree granted of;相关 related work of timespan
  • 内容表达 Expression(5个):date of expression of,代表性内容表达 date of representative expression of;抓取 date of capture of,date of capture of representative expression of;相关 related expression of timespan
  • 载体表现 Manifestation(7个):date of manifestation of;出版、生产、制作、发行、版权 date of publication of,date of production of,date of manufacture of,date of distribution of(见:Manifestation > date of distribution),copyright date of;相关 related manifestation of timespan
  • 单件 Item(1个):相关 related item of timespan
  • 行为者/集体行为者 Agent(4个): 活动时期 period of activity of agent of,period of activity of collective agent of;相关 related agent of timespan,related collective agent of timespan
  • 个人 Person(4个):生卒日期 date of birth of,date of death of;活动时期 period of activity of person of;相关 related person of timespan
  • 家族 Family(2个):活动时期 period of activity of family of;相关 related family of timespan
  • 团体 Corporate Body(5个)建立、终结 date of establishment of,date of termination of;活动时期period of activity of corporate body of;会议 date of conference of;相关 related corporate body of timespan
  • 地点 Place(1个):相关 related place of timespan
  • RDA Entity(1个):相关 related RDA Entity of timespan