AI4LRM:图档博人工智能社区

AI4LRMhttps://sites.google.com/view/ai4lam),一个专注于促进图书馆、档案馆和博物馆使用人工智能(AI)的国际社区。始于2018年挪威国家图书馆和斯坦福大学图书馆签署的谅解备忘录,2019年法国国家图书馆、史密森学会和大英图书馆加入,成立AI4LAM秘书处,负责协调和支持社区的活动。

从AI4LRM可获取的资源主要有以下3方面,很有参考价值:

  • Fantastic Futures(奇妙未来)——AI4LRM举办的年度会议,会议内容越来越丰富。 虽然资料不全,但除了第2次,至少有会议议程,可作为了解AI在图档博应用进展的起点,找寻自己感兴趣的内容:

第1次2018年,挪威国家图书馆,会议网页:https://www.nb.no/hva-skjer/ai-conference/(有报告概要;详细页链接失效)

第2次2019年,美国斯坦福大学图书馆,会议网页:https://library.stanford.edu/projects/fantastic-futures(链接失效)

第3次2021年,法国国家图书馆,会议网页:https://www.bnf.fr/fr/captations-et-supports-de-la-conference-2021(有视频、PPT)

第4次2022年,大英图书馆(虚拟会议),会议网页:https://sites.google.com/view/ai4lam/ai4lam-2022-virtual-event(有报告概要,录音等在 https://drive.google.com/drive/folders/1w4HT6n_uYDGOi8In_xSYB-HEqYazjtiO

第5次2023年,Internet Archives Canada,会议网页:https://ff2023.archive.org/(仅议程)

第6次2024年,澳大利亚国家电影和声音档案馆(NFSA),会议将于2024年10月召开:https://www.nfsa.gov.au/fantastic-futures-canberra-2024-artificial-intelligence-libraries-archives-and-museums

  • AI4LAM Awesome List(真棒清单)https://ai4lam.github.io/awesome-ai4lam/——在线资源清单。简短描述+链接,指向与AI和GLAM(画廊、图书馆、档案馆、博物馆)交叉点相关的学习资料、软件工具、项目和各种其他资源。
  • 工作组等——目前运作中的有2个工作组:元数据工作组AI教学工作组。有简单的年度报告和会议记录等文件。

如何为用AI软件生成的资源做编目

随着新一轮人工智能(AI)软件的兴起,开始出现用AI软件生成的图书(纸书或电子书)。2024年初,合作编目项目(PCC)标准委员会编写了一个指导性文件《PCC常见问题解答:为用AI软件生成的资源做编目》,包括4个问题解答及8个实际资源的示例,及时又实用。

以下为此FAQ的翻译及简单备注(示例仅列1)。概而言之:人类行为者仍视情况使用100/700字段,所用AI软件作为相关作品(使用130/730字段),可添加653主题/655体裁术语表明为AI软件生成,必要时用附注说明。

PCC FAQ: Cataloging of Resources Generated Using Artificial Intelligence (AI) Software / PCC Standing Committee on Standards. 2024-2-8. https://www.loc.gov/aba/pcc/scs/documents/FAQ-Cataloging-of-Resources-Generated-by-Artificial-Intelligence

1、AI软件程序是否可以被视为作者、艺术家、作曲家、插画家、翻译人员或其他与资源相关的行为者?【AI软件不是行为者,是作品、用130/730字段】

根据《主题标题手册》备忘录H 405(以名称或主题规范档建立某些实体),计算机程序和软件是在名称规范档中建立的“第一组”实体,通常使用MARC字段130(题名)。

将用于创建资源的命名AI或生成式计算机程序视为相关作品,而不是作为行为者,即使编目的资源将AI或其他计算机程序作为创建者或贡献者。

2、如何对待编程或操作用于生成资源的AI软件的行为者?【人类行为者、用100/700字段;做附注】

当已知时,记录负责操作、提示、编辑在编资源中的命名AI或生成式计算机程序的输出的个人或集体行为者,作为相关行为者。与AI生成的资源相关联的人类行为者通常可以呈现为作者、编者、编译者或提示者,也可以是未命名的。

负责开发、编程或托管AI软件的行为者也可以被视为与正在编目的资源相关的行为者。这些行为者也可以作为相关行为者记录在软件的规范记录中(见示例8[规范记录])。

如果与资源相关联的行为者的具体角色不明确,使用通用元素名称,如“创建者”或“贡献者”,或者不要分配关系说明语。参阅《在书目记录中应用关系说明语培训手册》的指导方针4和5。

如有必要,在附注中说明归因。

3、AI的名称可以被认为是人类行为者的笔名吗?【作为个人笔名;做附注】

一般来说,将软件名称本身视为相关作品,而不是软件操作员或程序员的笔名。如果软件有多个名称,这些名称可以被视为软件的变异题名。

如果使用AI软件创建的资源以笔名显示,则将其视为人类行为者的笔名,而不是软件的笔名。如果由人类行为者在不使用AI软件的情况下创建的资源仍然虚拟地呈现为由AI软件创建的资源,那么任何虚构的AI名称也可能被视为人类行为者的笔名。参阅《LC/PCC为使用笔名的个人创建名称规范记录(NAR)的做法》。

如有必要,在附注中说明归因。

4、还能如何传达AI软件在创建或贡献资源中的作用?【653主题/655体裁术语】

考虑通过相关主题和/或体裁术语来传达AI软件在创建资源中的作用。参见示例1、5和6。

Example 1:

  • 245 00 $a I am code : $b an artificial intelligence speaks / $c poems by code-davinci-002;editedby Brent Katz, Josh Morgenthau, and Simon Rich.
  • 500 __ $a The Code-davinci-002 program, developed by OpenAI, was used to generate the poetry.【由OpenAI开发的Code-davinci-002程序用于生成诗歌】
  • 655 _7 $a Computer poetry. $2 lcgft【索引词-体裁】
  • 700 1_ $a Katz, Brent, $e editor.
  • 700 1_ $a Morgenthau, Josh, $e editor.
  • 700 1_ $a Rich, Simon, $e editor.
  • 730 0_ $i Related work: $a Code-davinci-002.

【Example 2-8 略】

Kimi智能助手解读ISBDM

手机上装了Kimi智能助手(也有网页版:https://kimi.moonshot.cn/)。之前给它发了一个十多页的英文PDF文件,很快返回中文摘要+简洁的概要编译,真是大大减轻了看学术文章(尤其是外文的)压力。

今天用ISBDM《国际标准书目著录:载体表现》网页来试,发现基于AI大模型的Kimi确实有智能,会视情况作出不同的返回,可读性好。总体来说翻译质量不错,当然专业术语做不到很准确,也是可以理解的(特别注意:ISBDM不是“国际标准书目描述手册”)。

总结起来,给Kimi发送英文网页,返回中文内容,大致如下:

  • 1、首尾对网页内容予以概括(部分内容AI添加,非出自本网页)
  • 2、网页内容大多依段落添加顺序编号
  • 3、可能在段前列出抽取的*重点*(增加可读性)
  • 4、可能在内容中增加(来自AI的)解释(帮助理解)
  • 5、遇图表,视情况可能概述、可能翻译
  • 6、识别到内容太少时,会说明无法提供
  • 7、网络问题访问不成功,可再次发送网址

以下为与Kimi的三个对话,体现Kimi的不同处理结果。感觉ISBDM正文需参照“改写”,突出重点、改善可读性。

一、发送网址:ISBDM — Introductionhttps://www.iflastandards.info/ISBDM/docs/intro/(注:”综合ISBD“指“ISBD统一版”)

【Kimi的返回,起始摘要】您提供的链接是指向国际图联(IFLA)的标准之一,即“国际标准书目描述手册(ISBDM)”的介绍页面。ISBDM提供了描述单一表现形态(manifestation)的规则,并且允许将该表现形态与其他表现形态以及与文学记录模型(LRM)的其他实体相关联。

ISBDM与综合ISBD(International Standard Bibliographic Description)具有相似的用途,因为综合ISBD的主要焦点是表现形态实体,同时也轻微覆盖了LRM的其他资源实体,包括作品(Work)、表达(Expression)和单件(Item)。在综合ISBD描述中记录的大部分信息也可以在ISBDM描述中记录,尽管结构不同。

ISBDM的规定支持基于实体的编目(entity-based cataloguing)的两种不同应用:【以下编号1和2、冒号后的解释,均为为Kimi添加

1. **开放链接数据应用(linked open data applications)**:这涉及到将图书馆和信息中心的数据通过互联网公开,以便于其他网站和应用程序能够使用这些数据

2. **关系数据库应用(relational database applications)**:这是指在数据库中存储和管理数据,以便可以高效地检索和分析

Kimi的自拟结语】ISBDM的规定旨在支持图书馆和信息中心在数字环境下对图书和其他文献资料进行描述和编目,以适应现代信息检索的需求。如果您需要更详细的信息或对ISBDM有特定的问题,请告诉我,我会尽力帮助您。

二、发送网址:ISBDM — Preliminary assessmenthttps://www.iflastandards.info/ISBDM/docs/assess/

【Kimi的返回,起始摘要】您提供的链接是指向国际图联(IFLA)的“国际标准书目描述手册(ISBDM)”的评估页面。这个页面详细说明了在记录描述之前对表现形态(manifestation)进行初步评估的过程。

以下是该页面的主要内容概述:【编号为Kimi添加,**为Kimi从本段落抽取(可能来自2句)

1. **初步评估**:在记录描述之前,需要对表现形态进行初步评估。这有助于确定是否需要单独描述该表现形态,以及描述的粒度和完整性,以满足编目机构的需求。

2. **粒度和完整性**:表现形态描述的粒度取决于表现形态中存在的载体和内容组件的数量。描述的完整性取决于出版或生产的意图,是在一个连续的过程中完成,还是分阶段完成。

3. **评估内容**:评估需要确定与表现形态相关联的资源实体的数量和类型,并决定是否在描述中关联、注明或省略它们。

4. **表现形态的实例**:一个表现形态的实例可能包括不确定数量的样本,这通常与表现形态的描述无关。一个项目的实例只描述特定于该项目的特征,包括出版或生产后所做的修改。

5. **表现形态的发布或生产**:一个表现形态的实例可能在多个物理或逻辑部分中发布或生产。

6. **评估的三个特征**:每个表现形态都具有三个独特的特征,这些特征适用于所有表现形态:

  • 发布或生产的单位数量(单一单位或多个单位)。
  • 表现形态所体现的表达数量(单一表达或多个表达)。
  • 表现形态所体现的作品内容是静态的还是计划随时间变化的。

   每个特征在最广泛的层面上满足两个互斥条件中的一个。每个表现形态必须适用于其中一个条件。

7. **资源实体的实例**:页面上还提供了一个实体-关系图(Figure 2),展示了可能与信息资源中表现形态实例相关联的资源实体实例。【Kimi概述图示

8. **评估特征**:对于每个评估特征,确定与表现形态相关联的资源实体的数量。应用任何强制性规定,并为每个资源实体实例选择以下选项之一:

  • 记录适当的关系元素以将资源实体实例与表现形态关联。
  • 记录适当的注释元素以描述表现形态描述中的一个或多个资源实体实例。
  • 记录适当的表现形态声明元素以描述表现形态描述中的一个或多个资源实体实例。
  • 从表现形态描述中省略资源实体实例。

9. **独立特性**:要评估的特征是相互独立的,并且分别在不同的阶段进行分析。分析的顺序并不重要;ISBDM建议按照这里给出的顺序进行。

Kimi的自拟结语】这个页面提供了对ISBDM评估过程的深入了解,有助于图书馆和信息中心在数字环境下对图书和其他文献资料进行描述和编目。如果您对ISBDM的评估过程有具体的问题或需要进一步的帮助,请告诉我。

三、发送网址:ISBDM — Glossaryhttps://www.iflastandards.info/ISBDM/docs/glossary/

Kimi的返回,起始摘要】您提供的链接指向的是国际图联(IFLA)的“国际标准书目描述手册(ISBDM)”的术语表(Glossary)页面。这个页面列出了与ISBDM相关的一系列专业术语和定义,这些术语对于理解和应用ISBDM标准至关重要。

以下是页面上列出的一些关键术语及其定义:【原文为三栏表格形式:术语、定义、范围注释。Kimi保留“术语”原文未译,后两部分被合并翻译

  • **Access Point**:由编目机构从权威文件中选取或使用字符串编码方案构建的实体实例的名称。
  • **Acronym**:作为一个单词发音的首字母缩略词,不是作为单独字母发音。
  • **Aggregate**:包含多于一个独立表达的表现形态。
  • **Augmented Expression Aggregate**:包含单一独立作品的表达,并由一个或多个从属作品的增强表达补充的集合。
  • **Authorized Access Point**:在权威文件中优先选择的访问点。
  • **Authority File**:用于识别实体的受控值集的数据集,通常包括访问点、标识符以及其他元数据。
  • **Base Access Point**:没有用于区分或次要排序的限定词的访问点。
  • **Chronogram**:特定字母被重新排列后代表日期的单词或短语。
  • **Collected Expressions Aggregate**:包含一个以上独立作品的表达集的集合。
  • **Collection Manifestation**:通过保存选定项目体现收藏作品的表现形态。
  • **Compound Title**:由一个以上的标题或名称组成的标题。
  • **Controlled String**:由编目机构创建的字符串,以支持信息检索。
  • **Dataset**:描述特定实体实例的元数据集合。
  • **Element**:典型化实体的特征,包括一般方面如注释,以及特定方面如属性或关系。
  • **Entity**:人类话语领域中物理或概念事物的抽象类别。
  • **Facsimile**:在新的表现形态中复制的内容,保留了现有表现形态的布局和呈现。
  • **Filename**:用于标记计算机文件的字符串。
  • **Identifier**:用于在本地系统中区分实体实例的受控字符串。
  • **Information Resource**:记录信息的独立来源。
  • **Instance**:实体的单一离散或个体示例。
  • **IRI (Internationalized Resource Identifier)**:用于区分语义网和开放链接数据中实体、实体实例、元素或概念的机器可读的符号序列。
  • **Leaf**:与其它纸张一起装订或固定形成册的单张纸。
  • **Nomen String**:实体的名称字符串。
  • **Parallel Expressions Aggregate**:包含单一独立作品的表达的集合,包括不同语言和文字的表达。
  • **Published Manifestation**:通过机械过程制造的一个或多个项目的表现形态。
  • **Resource Entity**:作品、表达、表现形态或项目。
  • **String**:被视为整体的符号或符号序列。
  • **String Encoding Scheme**:从一组其他字符串创建单个字符串的规则集。
  • **Successive Diachronic Work**:通过顺序子单位在表现形态中体现的历时作品。
  • **Title**:由实例的创作者分配的资源实体实例的名称。
  • **Type of Composition**:作曲家经常用来指代一种音乐作品类型的音乐形式、体裁或通用术语。
  • **Unit**:无形表现形态的逻辑部分或有形表现形态的物理部分。
  • **Value Vocabulary**:用于描述实体特定特征的受控术语集。
  • **Whitespace**:页面上不包含内容的区域,包括边距、缩进和布局中出现的空白行。

Kimi的自拟结语】这些术语和定义对于图书管理员、编目员以及任何需要精确描述和分类图书和其他信息资源的人来说都是非常重要的。如果您对这些术语或ISBDM标准有具体的问题,或者需要进一步的帮助,请告诉我。