如何为用AI软件生成的资源做编目

随着新一轮人工智能(AI)软件的兴起,开始出现用AI软件生成的图书(纸书或电子书)。2024年初,合作编目项目(PCC)标准委员会编写了一个指导性文件《PCC常见问题解答:为用AI软件生成的资源做编目》,包括4个问题解答及8个实际资源的示例,及时又实用。

以下为此FAQ的翻译及简单备注(示例仅列1)。概而言之:人类行为者仍视情况使用100/700字段,所用AI软件作为相关作品(使用130/730字段),可添加653主题/655体裁术语表明为AI软件生成,必要时用附注说明。

PCC FAQ: Cataloging of Resources Generated Using Artificial Intelligence (AI) Software / PCC Standing Committee on Standards. 2024-2-8. https://www.loc.gov/aba/pcc/scs/documents/FAQ-Cataloging-of-Resources-Generated-by-Artificial-Intelligence

1、AI软件程序是否可以被视为作者、艺术家、作曲家、插画家、翻译人员或其他与资源相关的行为者?【AI软件不是行为者,是作品、用130/730字段】

根据《主题标题手册》备忘录H 405(以名称或主题规范档建立某些实体),计算机程序和软件是在名称规范档中建立的“第一组”实体,通常使用MARC字段130(题名)。

将用于创建资源的命名AI或生成式计算机程序视为相关作品,而不是作为行为者,即使编目的资源将AI或其他计算机程序作为创建者或贡献者。

2、如何对待编程或操作用于生成资源的AI软件的行为者?【人类行为者、用100/700字段;做附注】

当已知时,记录负责操作、提示、编辑在编资源中的命名AI或生成式计算机程序的输出的个人或集体行为者,作为相关行为者。与AI生成的资源相关联的人类行为者通常可以呈现为作者、编者、编译者或提示者,也可以是未命名的。

负责开发、编程或托管AI软件的行为者也可以被视为与正在编目的资源相关的行为者。这些行为者也可以作为相关行为者记录在软件的规范记录中(见示例8[规范记录])。

如果与资源相关联的行为者的具体角色不明确,使用通用元素名称,如“创建者”或“贡献者”,或者不要分配关系说明语。参阅《在书目记录中应用关系说明语培训手册》的指导方针4和5。

如有必要,在附注中说明归因。

3、AI的名称可以被认为是人类行为者的笔名吗?【作为个人笔名;做附注】

一般来说,将软件名称本身视为相关作品,而不是软件操作员或程序员的笔名。如果软件有多个名称,这些名称可以被视为软件的变异题名。

如果使用AI软件创建的资源以笔名显示,则将其视为人类行为者的笔名,而不是软件的笔名。如果由人类行为者在不使用AI软件的情况下创建的资源仍然虚拟地呈现为由AI软件创建的资源,那么任何虚构的AI名称也可能被视为人类行为者的笔名。参阅《LC/PCC为使用笔名的个人创建名称规范记录(NAR)的做法》。

如有必要,在附注中说明归因。

4、还能如何传达AI软件在创建或贡献资源中的作用?【653主题/655体裁术语】

考虑通过相关主题和/或体裁术语来传达AI软件在创建资源中的作用。参见示例1、5和6。

Example 1:

  • 245 00 $a I am code : $b an artificial intelligence speaks / $c poems by code-davinci-002;editedby Brent Katz, Josh Morgenthau, and Simon Rich.
  • 500 __ $a The Code-davinci-002 program, developed by OpenAI, was used to generate the poetry.【由OpenAI开发的Code-davinci-002程序用于生成诗歌】
  • 655 _7 $a Computer poetry. $2 lcgft【索引词-体裁】
  • 700 1_ $a Katz, Brent, $e editor.
  • 700 1_ $a Morgenthau, Josh, $e editor.
  • 700 1_ $a Rich, Simon, $e editor.
  • 730 0_ $i Related work: $a Code-davinci-002.

【Example 2-8 略】

牛津大学图书馆Z39.50服务器变化

牛排(网友)在微信上问我,牛津大学图书馆书目数据还能套录否?并给出认证用户失败、查询失败的提示截屏。

很久没用Z39.50查书目数据了。电脑系统更新到Windows 11后,还没有安装Z39.50客户端。立刻安装,添加以前收集的牛津大学Z39.50服务器信息(主机/端口/数据库)library.ox.ac.uk / 210 / ADVANCE,确实查不了。

参见:Z39.50服务器信息(2004-11-4)

要找到源头,看有没有说法。在该馆网站,查到2023年8月图书馆系统更换,数据库名称变化:z39.50 configuration

  • Host: library.ox.ac.uk
  • Port: 210 or 1921
  • Database: 44OXF_INST

于是在Z39.50客户端上重新添加主机,竟然连接就要求登录?上述网页并未提及需要认证呀。

后来才想起,添加数据库时没选“匿名”。修改后,连接主机数据库,查询有结果,可以正常下载记录。

问题解决。

法国国家图书馆的MARC格式:Intermarc-NG

在欧美图书馆界的书目关联数据关注点集中在BIBFRAME之时,法国是个例外。法国的书目转换计划(Tb, Transition bibliographique),在格式上仍然选择MARC,而且国家图书馆和高校图书馆还采用不同的格式。其中法国国家图书馆(BnF)采用新一代Intermarc(Intermarc-NG)。

参见:法国图书馆界的关联数据之路(BnF vs Abes) (2024-1-2)

在《资源描述与检索》(RDA)指导委员会(RSC)官网上找到2021年法国国家图书馆的一个PPT:Intermarc-NG Format. 2021-9-14. 8 slides. http://www.rda-rsc.org/sites/all/files/BNF_intermarc_Foucher.pdf

用7分钟时间展示:1.为什么选择Intermarc NG?2.Intermarc NG是如何编制的?3.Intermarc NG的原则 4.已经做了什么?5.还有什么要做?以下翻译1和3【方括号内为本人附注】

1. 为什么选择Intermarc NG?三个目标:

  • [1] 具有与IFLA LRM兼容并实现RDA-FR(RDA法国版)的格式:它应使BnF能够根据RDA-FR编目条例的规则,按照IFLA LRM模型本地生成数据。【其时BIBFRAME模型与LRM并不一致】
  • [2] 具有能够准确编目BnF资源的格式:Intermarc目前允许描述10种文献类型(从印刷品到硬币和奖章[实物])和9种规范记录。最终,Intermarc NG应详细描述15个实体。【BIBFRAME词表对很多类型资源还需要扩展】
  • [3] 具有可以根据BnF要求发展的格式:作为法定呈缴的保管人,BnF需要一种可以快速发展的格式,以跟上进入馆藏的文件特征的变化。【难以依赖BIBFRAME更新(标准如牙刷,总是自己的好)】

3. Intermarc NG的原则

  • IFLA LRM合规性
  • 实施RDA-FR
  • 保持marc格式的原则……但抑制[字段]标识符和编码信息字段【用不同字段而非字段标识符区分不同含义;编码信息字段通常有相应的描述字段】
  • 遵守ISO-2709
  • 所有实体的单一格式:取消规范/书目(A/B)格式区分
  • 具有相干块和子块的格式
  • 增加格式的助记符逻辑【子字段$w总是与附注相对应,含X5X的字段主要与作品相关】
  • 一种不断发展的格式(3位子字段和字母数字字段标签)【针对以往对MARC格式内在限制的质疑。目前未见含字母的字段名】
  • 更准确地将数据上下文化(在字段级别声明元数据的可能性)

法国国家图书馆的Intermarc网页:INTERMARC Bibliographique de diffusion(2020年8月)

从字段上看象是MARC21和UNIMARC的混合体,其中商业标目(72X-73X)是出版发行者检索点,原来的MARC没有【以下汉译基本来自自动翻译,错误不可避免,仅供参考】

  • Zones fixes 定长区【00X】000指南[头标24位] / 001记录标识号 / 003URL / 008编码通用信息区00-45 / 009编码信息字段
  • Numéros d’identification 标识号【01X-03X】015法国国家书目出版编号 / 017 / 018 / 020ISBN / 022ISSN / 023音乐 / 024ISMN / 027旧磁盘 / 028商业编号 / 030ISRC / 038商业条码
  • Autres informations codées 其他编码信息【04X-07X】040出版国 / 041语言 / 042比例和坐标 / 043地貌投影本初子午线 / 044日期 / 046持续时间 / 047文档款目 / 048乐器或声音数量 / 050媒体类型 / 051内容类型和媒介类型 / 072地理分类框架
  • Gestion des sous-notices 子记录摄入【08X-09X】082子记录ID / 093图像ID-用于扫描
  • Sous-zone d’informations codées 编码信息的子区($w参考子字段)
  • Vedettes principales 主要标目【1XX】100个人作者 / 101个人表演者 / 110团体作者 / 111解释性团体 / 140分类 / 141统一文本题名 / 142原题名 / 143形式题名 / 144统一音乐题名 / 145惯用题名 / 146资源包题名
  • Informations descriptives 描述性信息【2XX】210短识别题名 / 217标准地图丛编题名 / 222识别题名|参照题名 / 243编目员题名 / 245题名与责任 / 247题名与并列责任 / 248题名与责任更新 / 250版本|印刷|状态 / 255编号 / 256数学数据 / 257电子资源类型与尺寸 / 258音乐表演 / 260书目地址:出版发行制作复制 / 261书目地址:档案 / 263书目地址更新 / 265呈现地 / 266发行地 / 270书目地址:制造 / 280文档物理描述 / 281原文档物理描述 / 285图像技术 / 290专著集题名 / 292专著集并列题名 / 295文集或子集题名 / 297文集或子集并列题名
  • Notes 附注【3XX,83X】300通用附注 / 302语言 / 306电子资源类型和尺寸 / 308水印 / 309参考书目 / 310可用性和通信 / 312赞助商 / 313提及口译员和与会者 / 314文件完成 / 315创建节目 / 316首次发布 / 317作品历史 / 321索引连续出版物的书目 / 323附件材料责任说明 / 324复制 / 325作品的印刷或手稿来源 / 326周期性 / 327多卷专著分析 / 328学术作品 / 330摘要 / 331文档(或纲要)的内部结构 / 333编号 / 337技术规格 / 338如何访问数据 / 341最后一个数字 / 350标题和免责声明 / 351版本、印刷或状态 / 352书目地址 / 353材料或技术说明 / 354主题 / 355编辑文集 / 357献词 / 376相关出版物 / 385文档来源集的题名 / 393与本地数据相关的字段 / 395主文集 // 830CNLJ摘要和电子书 / 832对作品的评论 / 833来自CNLJ的评论)
  • Liens bibliographiques 书目链接【4XX】410属于文集的专著 / 420专著补充/421 / 422连续出版物的专著补充/423 / 430其他版本 / 431同一技术类别中其他状态 / 432不同技术类别中编辑 / 433A侵权[?] / 434伪造 / 440记录节目的专著 / 441A游览 / 443用于恢复的A / 446参观 / 448恢复 / 450属于虚拟集的专著 / 455虚拟集间链接 / 460属于专著集的专著 / 465专题集间链接 / 470属于连续出版物的专著 / 480不同类型文档间-两个专著记录间 / 490不同类型文档间-专著剥离另一专著
  • Zones de transcription 转录区【5XX】520文本提示 / 522音乐 / 524音乐编码 / 550连续出版物上显示的作者团体名称
  • Indexation 索引[主题]【6XX】600个人名称主题 / 601统一文本题名主题 / 602连续出版物题名主题 / 603匿名标题主题 / 604音乐统一题名主题 / 605惯用题名主题 / 606通用名称主题 / 607地理名称主题 / 608体裁形式功能标题 / 609资料标记标题 / 610团体主题 / 615外国资料标题?/ 616专题地图和平面图 / 617地理标题 / 619非受控词 / 620产品所涉及的领域 / 621发生日期 / 626图像美学 / 630一般主题标题 / 640 视听体裁 / 641图像体裁 / 645类型 / 646图像类型 / 647地图类型 / 675CDU索引 / 676杜威索引(CDD)/ 680分类框架 / 681法国历史索引
  • Vedettes secondaires 次要标目【700-71X】700个人作者 / 701个人口译者 / 702个人客座技术艺术协作者 / 703个人参与者 /710/711/712/713团体……
  • Vedettes commerciales 商业标目【72X-73X】720个人出版商 / 721个人发行者 / 722声音文件个人制作者 / 723标记 / 725个人生产者 / 726音像文件个人制作者 / 727个人制造者或服务提供者 /730/731/732/735/736/737团体……
  • Vedettes secondaires titre 次要题名标目[对应14X]【74X-75X】741统一文本题名 / 743形式题名 / 744音乐统一题名 / 745惯用题名 / 748同一作者的其他题名 / 749多卷专著的卷题名 / 750交替文档题名 / 751作品的变异题名 / 753历史题名变异
  • Liens bibliographiques entre publications en série 连续出版物之间的书目链接【76X-79X】760是…子集 / 761是…补充或插入 / 763是专著的补充 / 765a作为子集 / 766a作为补充或插入 / 768作为专著的补充 / 770是…的一个版本 / 775a用于其他版本 / 776其他格式 / 780先前题名 / 784与…合并 / 785后续题名 / 787链接题名 / 790历史记录链接
  • Autres identifiants 其他标识符【84X-85X】842链接到属于参考目录集的记录 / 856电子邮件地址和其他信息
  • Informations locales 本地信息【90X-93X】905不分配ISSN的原因 / 917从旧BnF系统检索的记录编号 / 918装载期间的记录编号(迁移存储区域)/ 919从外部或外部系统的旧BnF系统检索的记录编号 / 934在BnF外部复制
  • Zones de gestion 摄入区【98X-99X】987新版本阻止记录的第一记录编号或基本记录或主记录编号 / 996合并到BnF总目录中的记录编号 / 998在加载到BnF总目录之前合并的记录编号