如何为用AI软件生成的资源做编目

随着新一轮人工智能(AI)软件的兴起,开始出现用AI软件生成的图书(纸书或电子书)。2024年初,合作编目项目(PCC)标准委员会编写了一个指导性文件《PCC常见问题解答:为用AI软件生成的资源做编目》,包括4个问题解答及8个实际资源的示例,及时又实用。

以下为此FAQ的翻译及简单备注(示例仅列1)。概而言之:人类行为者仍视情况使用100/700字段,所用AI软件作为相关作品(使用130/730字段),可添加653主题/655体裁术语表明为AI软件生成,必要时用附注说明。

PCC FAQ: Cataloging of Resources Generated Using Artificial Intelligence (AI) Software / PCC Standing Committee on Standards. 2024-2-8. https://www.loc.gov/aba/pcc/scs/documents/FAQ-Cataloging-of-Resources-Generated-by-Artificial-Intelligence

1、AI软件程序是否可以被视为作者、艺术家、作曲家、插画家、翻译人员或其他与资源相关的行为者?【AI软件不是行为者,是作品、用130/730字段】

根据《主题标题手册》备忘录H 405(以名称或主题规范档建立某些实体),计算机程序和软件是在名称规范档中建立的“第一组”实体,通常使用MARC字段130(题名)。

将用于创建资源的命名AI或生成式计算机程序视为相关作品,而不是作为行为者,即使编目的资源将AI或其他计算机程序作为创建者或贡献者。

2、如何对待编程或操作用于生成资源的AI软件的行为者?【人类行为者、用100/700字段;做附注】

当已知时,记录负责操作、提示、编辑在编资源中的命名AI或生成式计算机程序的输出的个人或集体行为者,作为相关行为者。与AI生成的资源相关联的人类行为者通常可以呈现为作者、编者、编译者或提示者,也可以是未命名的。

负责开发、编程或托管AI软件的行为者也可以被视为与正在编目的资源相关的行为者。这些行为者也可以作为相关行为者记录在软件的规范记录中(见示例8[规范记录])。

如果与资源相关联的行为者的具体角色不明确,使用通用元素名称,如“创建者”或“贡献者”,或者不要分配关系说明语。参阅《在书目记录中应用关系说明语培训手册》的指导方针4和5。

如有必要,在附注中说明归因。

3、AI的名称可以被认为是人类行为者的笔名吗?【作为个人笔名;做附注】

一般来说,将软件名称本身视为相关作品,而不是软件操作员或程序员的笔名。如果软件有多个名称,这些名称可以被视为软件的变异题名。

如果使用AI软件创建的资源以笔名显示,则将其视为人类行为者的笔名,而不是软件的笔名。如果由人类行为者在不使用AI软件的情况下创建的资源仍然虚拟地呈现为由AI软件创建的资源,那么任何虚构的AI名称也可能被视为人类行为者的笔名。参阅《LC/PCC为使用笔名的个人创建名称规范记录(NAR)的做法》。

如有必要,在附注中说明归因。

4、还能如何传达AI软件在创建或贡献资源中的作用?【653主题/655体裁术语】

考虑通过相关主题和/或体裁术语来传达AI软件在创建资源中的作用。参见示例1、5和6。

Example 1:

  • 245 00 $a I am code : $b an artificial intelligence speaks / $c poems by code-davinci-002;editedby Brent Katz, Josh Morgenthau, and Simon Rich.
  • 500 __ $a The Code-davinci-002 program, developed by OpenAI, was used to generate the poetry.【由OpenAI开发的Code-davinci-002程序用于生成诗歌】
  • 655 _7 $a Computer poetry. $2 lcgft【索引词-体裁】
  • 700 1_ $a Katz, Brent, $e editor.
  • 700 1_ $a Morgenthau, Josh, $e editor.
  • 700 1_ $a Rich, Simon, $e editor.
  • 730 0_ $i Related work: $a Code-davinci-002.

【Example 2-8 略】

Kimi智能助手解读ISBDM

手机上装了Kimi智能助手(也有网页版:https://kimi.moonshot.cn/)。之前给它发了一个十多页的英文PDF文件,很快返回中文摘要+简洁的概要编译,真是大大减轻了看学术文章(尤其是外文的)压力。

今天用ISBDM《国际标准书目著录:载体表现》网页来试,发现基于AI大模型的Kimi确实有智能,会视情况作出不同的返回,可读性好。总体来说翻译质量不错,当然专业术语做不到很准确,也是可以理解的(特别注意:ISBDM不是“国际标准书目描述手册”)。

总结起来,给Kimi发送英文网页,返回中文内容,大致如下:

  • 1、首尾对网页内容予以概括(部分内容AI添加,非出自本网页)
  • 2、网页内容大多依段落添加顺序编号
  • 3、可能在段前列出抽取的*重点*(增加可读性)
  • 4、可能在内容中增加(来自AI的)解释(帮助理解)
  • 5、遇图表,视情况可能概述、可能翻译
  • 6、识别到内容太少时,会说明无法提供
  • 7、网络问题访问不成功,可再次发送网址

以下为与Kimi的三个对话,体现Kimi的不同处理结果。感觉ISBDM正文需参照“改写”,突出重点、改善可读性。

一、发送网址:ISBDM — Introductionhttps://www.iflastandards.info/ISBDM/docs/intro/(注:”综合ISBD“指“ISBD统一版”)

【Kimi的返回,起始摘要】您提供的链接是指向国际图联(IFLA)的标准之一,即“国际标准书目描述手册(ISBDM)”的介绍页面。ISBDM提供了描述单一表现形态(manifestation)的规则,并且允许将该表现形态与其他表现形态以及与文学记录模型(LRM)的其他实体相关联。

ISBDM与综合ISBD(International Standard Bibliographic Description)具有相似的用途,因为综合ISBD的主要焦点是表现形态实体,同时也轻微覆盖了LRM的其他资源实体,包括作品(Work)、表达(Expression)和单件(Item)。在综合ISBD描述中记录的大部分信息也可以在ISBDM描述中记录,尽管结构不同。

ISBDM的规定支持基于实体的编目(entity-based cataloguing)的两种不同应用:【以下编号1和2、冒号后的解释,均为为Kimi添加

1. **开放链接数据应用(linked open data applications)**:这涉及到将图书馆和信息中心的数据通过互联网公开,以便于其他网站和应用程序能够使用这些数据

2. **关系数据库应用(relational database applications)**:这是指在数据库中存储和管理数据,以便可以高效地检索和分析

Kimi的自拟结语】ISBDM的规定旨在支持图书馆和信息中心在数字环境下对图书和其他文献资料进行描述和编目,以适应现代信息检索的需求。如果您需要更详细的信息或对ISBDM有特定的问题,请告诉我,我会尽力帮助您。

二、发送网址:ISBDM — Preliminary assessmenthttps://www.iflastandards.info/ISBDM/docs/assess/

【Kimi的返回,起始摘要】您提供的链接是指向国际图联(IFLA)的“国际标准书目描述手册(ISBDM)”的评估页面。这个页面详细说明了在记录描述之前对表现形态(manifestation)进行初步评估的过程。

以下是该页面的主要内容概述:【编号为Kimi添加,**为Kimi从本段落抽取(可能来自2句)

1. **初步评估**:在记录描述之前,需要对表现形态进行初步评估。这有助于确定是否需要单独描述该表现形态,以及描述的粒度和完整性,以满足编目机构的需求。

2. **粒度和完整性**:表现形态描述的粒度取决于表现形态中存在的载体和内容组件的数量。描述的完整性取决于出版或生产的意图,是在一个连续的过程中完成,还是分阶段完成。

3. **评估内容**:评估需要确定与表现形态相关联的资源实体的数量和类型,并决定是否在描述中关联、注明或省略它们。

4. **表现形态的实例**:一个表现形态的实例可能包括不确定数量的样本,这通常与表现形态的描述无关。一个项目的实例只描述特定于该项目的特征,包括出版或生产后所做的修改。

5. **表现形态的发布或生产**:一个表现形态的实例可能在多个物理或逻辑部分中发布或生产。

6. **评估的三个特征**:每个表现形态都具有三个独特的特征,这些特征适用于所有表现形态:

  • 发布或生产的单位数量(单一单位或多个单位)。
  • 表现形态所体现的表达数量(单一表达或多个表达)。
  • 表现形态所体现的作品内容是静态的还是计划随时间变化的。

   每个特征在最广泛的层面上满足两个互斥条件中的一个。每个表现形态必须适用于其中一个条件。

7. **资源实体的实例**:页面上还提供了一个实体-关系图(Figure 2),展示了可能与信息资源中表现形态实例相关联的资源实体实例。【Kimi概述图示

8. **评估特征**:对于每个评估特征,确定与表现形态相关联的资源实体的数量。应用任何强制性规定,并为每个资源实体实例选择以下选项之一:

  • 记录适当的关系元素以将资源实体实例与表现形态关联。
  • 记录适当的注释元素以描述表现形态描述中的一个或多个资源实体实例。
  • 记录适当的表现形态声明元素以描述表现形态描述中的一个或多个资源实体实例。
  • 从表现形态描述中省略资源实体实例。

9. **独立特性**:要评估的特征是相互独立的,并且分别在不同的阶段进行分析。分析的顺序并不重要;ISBDM建议按照这里给出的顺序进行。

Kimi的自拟结语】这个页面提供了对ISBDM评估过程的深入了解,有助于图书馆和信息中心在数字环境下对图书和其他文献资料进行描述和编目。如果您对ISBDM的评估过程有具体的问题或需要进一步的帮助,请告诉我。

三、发送网址:ISBDM — Glossaryhttps://www.iflastandards.info/ISBDM/docs/glossary/

Kimi的返回,起始摘要】您提供的链接指向的是国际图联(IFLA)的“国际标准书目描述手册(ISBDM)”的术语表(Glossary)页面。这个页面列出了与ISBDM相关的一系列专业术语和定义,这些术语对于理解和应用ISBDM标准至关重要。

以下是页面上列出的一些关键术语及其定义:【原文为三栏表格形式:术语、定义、范围注释。Kimi保留“术语”原文未译,后两部分被合并翻译

  • **Access Point**:由编目机构从权威文件中选取或使用字符串编码方案构建的实体实例的名称。
  • **Acronym**:作为一个单词发音的首字母缩略词,不是作为单独字母发音。
  • **Aggregate**:包含多于一个独立表达的表现形态。
  • **Augmented Expression Aggregate**:包含单一独立作品的表达,并由一个或多个从属作品的增强表达补充的集合。
  • **Authorized Access Point**:在权威文件中优先选择的访问点。
  • **Authority File**:用于识别实体的受控值集的数据集,通常包括访问点、标识符以及其他元数据。
  • **Base Access Point**:没有用于区分或次要排序的限定词的访问点。
  • **Chronogram**:特定字母被重新排列后代表日期的单词或短语。
  • **Collected Expressions Aggregate**:包含一个以上独立作品的表达集的集合。
  • **Collection Manifestation**:通过保存选定项目体现收藏作品的表现形态。
  • **Compound Title**:由一个以上的标题或名称组成的标题。
  • **Controlled String**:由编目机构创建的字符串,以支持信息检索。
  • **Dataset**:描述特定实体实例的元数据集合。
  • **Element**:典型化实体的特征,包括一般方面如注释,以及特定方面如属性或关系。
  • **Entity**:人类话语领域中物理或概念事物的抽象类别。
  • **Facsimile**:在新的表现形态中复制的内容,保留了现有表现形态的布局和呈现。
  • **Filename**:用于标记计算机文件的字符串。
  • **Identifier**:用于在本地系统中区分实体实例的受控字符串。
  • **Information Resource**:记录信息的独立来源。
  • **Instance**:实体的单一离散或个体示例。
  • **IRI (Internationalized Resource Identifier)**:用于区分语义网和开放链接数据中实体、实体实例、元素或概念的机器可读的符号序列。
  • **Leaf**:与其它纸张一起装订或固定形成册的单张纸。
  • **Nomen String**:实体的名称字符串。
  • **Parallel Expressions Aggregate**:包含单一独立作品的表达的集合,包括不同语言和文字的表达。
  • **Published Manifestation**:通过机械过程制造的一个或多个项目的表现形态。
  • **Resource Entity**:作品、表达、表现形态或项目。
  • **String**:被视为整体的符号或符号序列。
  • **String Encoding Scheme**:从一组其他字符串创建单个字符串的规则集。
  • **Successive Diachronic Work**:通过顺序子单位在表现形态中体现的历时作品。
  • **Title**:由实例的创作者分配的资源实体实例的名称。
  • **Type of Composition**:作曲家经常用来指代一种音乐作品类型的音乐形式、体裁或通用术语。
  • **Unit**:无形表现形态的逻辑部分或有形表现形态的物理部分。
  • **Value Vocabulary**:用于描述实体特定特征的受控术语集。
  • **Whitespace**:页面上不包含内容的区域,包括边距、缩进和布局中出现的空白行。

Kimi的自拟结语】这些术语和定义对于图书管理员、编目员以及任何需要精确描述和分类图书和其他信息资源的人来说都是非常重要的。如果您对这些术语或ISBDM标准有具体的问题,或者需要进一步的帮助,请告诉我。

进化中的图书馆AI策略(ARL问卷调查及AI素养培训)

美国研究图书馆协会(ARL)在2023年4月和12月,针对火热的生成式人工智能(Generative AI)对成员馆代表进行了两次问卷调查。调查分析报告日前发布:

进化中的图书馆AI策略:来自研究图书馆协会成员代表九个月来的两次调查见解

Lo, Leo S., and Cynthia Hudson Vitale. Evolving AI Strategies in Libraries: Insights from Two Polls of ARL Member Representatives over Nine Months. Washington, DC: Association of Research Libraries, March 2024. https://doi.org/10.29242/report.aipolls2023.

在127个ARL成员馆中,4月的第1次问卷仅收到20个回复(16%),时隔9个月的第2次问卷收到74个回复(58%),显示对AI关注的显著增长。问卷主要关注对AI对图书馆服务的潜在影响的看法,当前AI在其图书馆内的探索和实施程度,以及认为最相关的潜在AI应用,以期全面分析成员馆对图书馆环境中AI集成的态度、策略和预期。两次问卷在基本内容稳定的情况下,第2次问卷对“生成式AI在未来12个月内在研究图书馆中最相关的潜在应用”部分进行了增强,显示出图书馆应用视野的扩大,以及更积极地参与用户指导的趋势,2次问卷此题选项变化如下:

  • a.自动化编目和元数据生成
  • b.用于用户支持的聊天机器人
  • c.个性化内容推荐
  • d.研究数据分析和可视化
  • e.支持AI用户社区【12月新增】
  • f.关于进行AI辅助文献综述的指导和咨询【12月增加“指导和咨询”】
  • g.关于评估生成AI回复准确性的指导【12月新增】
  • h.提示工程指导(Instruction on prompt engineering)【12月新增】
  • i.数字藏品搜索、发现和分析【12月新增】
  • j.其他(请具体说明)

以下摘译部分“调查结果”:

  • 如何描述你对未来12个月图书馆服务中生成式AI技术潜力的看法?(两次调查的比较突显了ARL成员代表对AI的态度发生了重大变化,在九个月的时间里,他们从普遍的谨慎乐观转变为对AI对图书馆的变革力量更有信心)【与社会普遍看法一致】
  • 您的图书馆目前在多大程度上探索或实施生成式AI能解决方案?(对两次调查的比较分析突显了学术图书馆内AI参与格局的重大转变。越来越多的图书馆从探索转向积极实施)
  • 请选择未来12个月内你认为最相关的生成AI在研究图书馆的潜在应用(第2次得到34-35次选择的应用:指导评估AI回复,自动编目和元数据生成,用于用户支持的聊天机器人,支持AI用户社区)
  • 图书馆如何加强其信息素养计划,帮助学生和研究人员更好地理解和评估AI生成的信息?(两次调查演变反映了一种转变,即从简单地想与其他单位合作,到在图书馆工作人员中深入思考AI素养的必要性)
  • 如何描述图书馆员工对生成AI的态度?(各种各样)
  • 从长远来看,预计生成式AI会以何种方式影响图书馆运营和服务?(预计将对图书馆运营和服务产生重大的长期影响:将简化工作流程,提高生产力,并重新定义图书馆员工队伍。然而,他们也认识到需要在乐观与现实之间取得平衡,承认潜在的挑战,如供应商在没有图书馆参与的情况下开发的AI工具。伦理考虑,包括负责任的AI开发和应用,仍然是图书馆在驾驭这一快速发展的技术时关注的重点)
  • 请描述你正在进行的关于生成AI的校园或组织对话的类型,以及图书馆在这些讨论中扮演的角色,例如,保持学术诚信、出版和作者身份、研究诚信等(图书馆在与生成式AI相关的全组织对话和倡议中的作用的演变。两次调查间,许多图书馆从主要专注于创建指南和研讨会转变为积极参与制定机构AI战略。合作的增加和跨学科的方法表明,图书馆在高等教育中驾驭生成式AI的复杂景观方面越来越重要。随着各机构努力应对AI对学术诚信、研究和出版的影响,图书馆处于提供宝贵见解和指导的有利地位。然而,并非所有成员代表都报告参与了其组织举措或对话。这表明,随着图书馆在生成式AI时代继续定义其角色,仍有增长和增加参与的空间)
  • 在过去的九个月里,你对生成AI的看法发生了怎样的变化?(起初许多代表对AI持谨慎乐观的态度,但随着他们获得更多知识,并见证了图书馆部门的真实应用,他们的观点朝着更积极、更明智的方向发展。这种观点的变化可以归因于几个因素,包括对AI工具的接触增加,对该技术的潜在好处和局限性有了更好的理解,以及人们越来越认识到AI将继续存在。随着成员代表更多地参与AI,他们对其可能性更有信心,并开始看到其改变图书馆服务和运营的潜力。然而,对负责任地使用AI以及使生成式AI工具对研究和实际应用有用所需的投资的持续担忧,缓和了这种积极性的增加。成员代表承认,虽然AI有潜力提供巨大的好处,但如果不负责任或不道德地实施,也会带来风险。他们强调图书馆需要批判性地参与AI,并确保其使用符合伦理原则和负责任的做法)

报告最后部分“可采取行动的建议”之一是“开发AI素养计划”——为图书馆员工和用户举办结构化的AI素养讲习班,侧重以下7项能力[引用本报告作者文献/见下],使员工和用户能够自信、负责任地使用AI技术:

  • 1.AI基础:介绍与图书馆服务相关的AI基本概念,包括机器学习和自然语言处理。
  • 2.AI的批判性评估:培训参与者批判性地评估AI生成的信息的准确性和可靠性。
  • 3.AI的伦理使用:讨论算法偏见和数据隐私等道德问题,强调图书馆中负责任的AI使用。
  • 4.AI数据管理:教授AI在数据管理和管理中的作用,强调数据质量的重要性。
  • 5.实际的AI应用:展示AI在图书馆运营中的应用,如自动编目和用户支持。
  • 6.导航AI增强的资源:为用户提供高效使用AI增强数据库和数字图书馆进行研究的技能。
  • 7.持续的AI学习:促进关于AI进步及其对图书馆的影响的持续教育。

[参考文献:评估大学图书馆的AI素养:以美国员工为重点的调查研究] Leo S.Lo,Evaluating AI Literacy in Academic Libraries: A Survey Study with a Focus on US Employees,” The University of New Mexico Digital Repository, 2024, https://digitalrepository.unm.edu/ulls_fsp/203.