上图讲座:美国国会图书馆实施BIBFRAME(附历年PPT分享)

昨天在上海图书馆采编中心做了一个讲座,标题《美国国会图书馆(LC)实施BIBFRAME》(PPT链接附后)。

此事源于年初,采编中心纪主任说在做年度学术计划,想请我做堂讲座,主题为编目发展趋势或者大语言模型相关新技术发展等都可以。我答应了,但坦言还没什么想法。之后一直关注两方面进展。

人工智能很热(也写了几篇介绍博文 https://catwizard.net/posts/tag/ai),但刚起步,没有太多实际应用,基本上还处在设想与规划阶段,比如《PCC人工智能和机器学习战略规划任务组最终报告》(2024-4-15)。编目工作或标准方面则没有什么方向性的变化,最大的期待应该就是美国国会图书馆(LC)明年更换图书馆自动化系统FOLIO后实施BIBFRAME了。

7月1日的BIBFRAME更新论坛透露了一些重要信息,顺藤摸瓜看了些资料,也写了些博文。那天去上图听周小玲讲座(听周小玲讲座:RDA的发展和更新(实施与翻译),2024-7-17),和纪主任沟通后,确定了讲座主题。

历年PPT分享

2008年时注册了Slideshare.net,自己的PPT基本上都上传到那里。2018年时忽然要架梯才能访问了,感觉太不方便,就找了academia.edu作为替代。上传了当年的3个文档,主要给博文做链接。之后好像不是每次有PPT都会写博文,有时主办方也会分享PPT,因此没再上传过文档。

昨天讲座后,想着还是可以分享下PPT。于是今天回到academia.edu,索性把2018年以来的PPT大致都上传了。

再说Slideshare.net在2020年被LinkedIn卖给了scribd.com,目前架梯后仍可访问、上传的PPT也都在,但不知道为什么在搜索框中输入题名基本上查不到。直接访问个人主页还是可以看到。

新西兰实施官方RDA并更新MARC

2024年8月1日开始,新西兰国家图书馆(NLNZ)将使用官方RDA工具包来描述印刷和数字专著,并计划在年底前用于所有格式

National Library of New Zealand Using Official RDA Toolkit. 2024-8-7. https://www.rdatoolkit.org/news/rda/national-library-new-zealand-using-official-rda-toolkit

新RDA于2020-12-15切换为官方版,印象中这是RDA官网上首次报道开始实施官方RDA的国家——不过据RDA指导委员会的更广泛社区参与专员周小玲称已有多国实施。

参见:听周小玲讲座:RDA的发展和更新(实施与翻译)(2024-7-17)/posts/2024/0717/6275

NLNZ实施官方RDA的相关资料

MARC字段使用变化

实施官方RDA工具包时对MARC记录进行更改,目的是在将来离开MARC以实现关联数据时,改进元数据的一致性和结构

具体来说,就是使用因RDA更新的MARC字段,并采用相应的RDA取值词表。特别值得注意的是,有两点希望在2025年完成改变,一是停用300$b、以340字段取代,二是停用1XX、均用7XX(理由是RDA从无“主要款目”的概念)。另外由于引入758字段,不再做130/240。比较遗憾的是,示例中一些无效标点、尤其是句末“.”仍然保留。

变化可从与原文件不同的角度,概括为如下四个方面【W=作品,E=内容表达,M=载体表现】

一、使用更多3XX字段/子字段:以官方RDA的4种记录方法来说,从“记录非结构化描述”变为“记录结构化描述”

334 – Mode of Issuance(M-发行方式,新增)334 ## ǂa single unit ǂ2 rdami

335 – Extension Plan(W-扩展计划,新增) 335 ## ǂa static plan ǂ2 rdaep

340 – Physical Medium(物理媒介)

  • 340 ## ǂg colour ǂp illustrations(M-色彩内容/插图内容,重复/将代替)300 ## ǂb colour illustrations(希望停止使用300$b)
  • 340 ## ǂa shellac ǂ2 rdamat(M-材料,代替)007 sducsmcnnmslne

345 – Moving Image Characteristics(动态图像特征)

  • 345 ## ǂc 16:9 ǂd Wide screen(E-纵横比,代替)500 ## $a Aspect ratio: widescreen (16:9).

二、使用专属字段

532 – Accessibility Note(M-无障碍内容)

  • 532 8# ǂa Closed captions for the hearing impaired.(代替“语言”)546 ## Closed captions for the hearing impaired.

758 – Resource Identifier(资源标识符;4种记录方法之“记录IRI”)

  • 758 ## ǂ4 http://rdaregistry.info/Elements/m/P30139 ǂi Expression manifested: ǂa Singh, Nalini, 1977- Archangel’s shadows. English(M-载体表现体现的内容表达/作品,新增;将不再加130/240字段)

三、采用官方RDA术语:

1、术语来源代码ǂ2:采用官方RDA词表编码方案(VES)。如上述3XX中的示例,再如:

336 ## ǂa text ǂ2 rdaco(代替原LC代码表:ǂ2 rdacontent)

2、1XX 和 7XX 字段中的关系说明语:改用官方RDA元素标签。如:

100 ǂa Mahy, Margaret, ǂd 1936-2012, ǂe author person.(代替原RDA:ǂe author.)另外,希望不再用1XX,均用7XX

3、新增本地字段,记录“合集载体表现”的类型:

931 ## ǂa collection aggregate

931 ## ǂa parallel aggregate

四、合订题名不用245ǂb,而是使用ISBD标点中没有的“+”分隔(因为无总题名合集的各组成部分题名共同构成“正题名”?)

正题名-无总题名的“合集”题名:245 00 ǂa Tilly meets a stranger + Ka tūtaki a Tilly i te tauhou(M-正题名)

人工智能技术在目录和元数据领域的应用

上篇博文翻译了PCC人工智能和机器学习战略规划任务组最终报告的“执行摘要”:

PCC Task Group on AI and Machine Learning for Cataloging and Metadata: Final Report. 2024-4-15. [30页]. https://www.loc.gov/aba/pcc/taskgroup/TG-Strategic-Planning-AI-final-report.pdf

参见:PCC人工智能和机器学习战略规划任务组最终报告(2024-8-10)/posts/2024/0810/6285

该小组的主要工作是2024年3月在相关邮件组进行的一项问卷调查(环境扫描),调查结果分析占据了最终报告一半篇幅。还是让Kimi(https://kimi.ai)帮着详细解读全文。

Kimi文件解读功能升级,初读后会给出3个提示问题,点击即可继续解读(如此循环)。同一文件,多次上传,Kimi给出的提示问题不尽相同,而回复也不完全相同。感觉每个问题都可以是研究论题,下述问题就是个好论题,回复结合了调查问卷分析中的内容。2次回复略有不同,同录于下。

报告中提到的AI和ML技术在目录和元数据领域的具体应用有哪些?

  • (回复1)报告中提到了AI和ML技术在目录和元数据领域的一些具体应用,包括但不限于以下几个方面:

1. **自动化例行技术服务任务**:使用AI技术帮助自动化图书馆目录和元数据工作中的重复性任务。

2. **分配主题词和分类**:使用机器学习或大型语言模型(LLM)来帮助分配主题词或分类标记,例如使用Annif工具自动分配主题词。

3. **文本分类或聚类**:应用机器学习工具对文本进行分类或聚类,以改善数字资源的主题索引。

4. **创建训练数据集**:使用图书馆管理的书目记录或其他数据创建训练数据集,用于训练AI模型。

5. **改进现有元数据**:使用机器学习工具识别和优先处理需要改进的现有元数据。

6. **生成知识图谱或链接数据实体**:使用AI工具创建知识图谱或链接数据,以增强资源的描述和发现。

7. **生成描述性元数据**:使用AI技术生成书籍或其他资源的描述性元数据。

8. **使用AI生成书目记录**:例如,使用ChatGPT生成书目记录的草稿。

9. **使用AI进行元数据修复**:如使用AI工具批量更新地理空间元数据。

10. **标准化项目描述**:使用AI技术根据特定标准(如ANSI/NISO Holdings规格)标准化项目描述,并增强缺失的时间顺序信息。

11. **OCR和元数据输入**:使用AI进行光学字符识别(OCR),并将扫描的文本转换为符合特定格式的元数据。

报告还指出,尽管一些机构在这些领域取得了不同程度的成功,但也有报告失败或结果不尽人意的情况,以及对AI作为目录工具能力的普遍不信任。此外,报告强调了在实施AI和ML技术时需要考虑的伦理问题,如数据隐私、安全性、偏见和错误信息等

  • (回复2)报告中提到了多种人工智能(AI)和机器学习(ML)在目录和元数据工作中的应用,具体包括:

1. 自动化常规技术服务任务:使用AI技术帮助自动化图书馆目录和元数据工作中的重复性任务。

2. 分配主题词或术语:使用机器学习或大型语言模型(LLMs)来分配主题词或术语,例如使用Annif平台自动为图书馆资源分配主题词。

3. 文本分类或聚类:应用机器学习工具对文本进行分类或聚类,以改善数字资源的主题索引。

4. 创建训练数据集:使用图书馆管理的书目记录或其他数据创建训练数据集,用于训练AI模型。

5. 识别和优先处理需要改进的元数据:使用机器学习工具识别现有元数据中需要改进的部分。

6. 创建知识图谱或链接数据实体:使用AI/机器学习工具生成知识图谱或链接数据实体。

7. 生成描述性元数据:使用AI技术生成书籍或其他资源的描述性元数据。

8. 使用AI编写代码或脚本:帮助自动化重复性任务,例如使用ChatGPT或其他AI助手。

9. 使用AI增强记录:在电子资源记录知识库中使用AI增强记录,提高元数据质量。

10. 使用AI进行元数据修复:例如,使用ChatGPT进行地理空间元数据的修复。

11. 使用AI进行标准化和增强:例如,使用AI标准化项目描述并增强缺失的时间顺序信息。

12. 使用AI进行主题分析和分类:尽管报告中提到目前LLMs在这方面尚未成熟,但这是未来发展的一个方向。

报告还指出,尽管有些应用已经取得了不同程度的成功,但也有一些尝试失败或结果不尽人意,显示出对AI作为目录工具能力的普遍不信任。此外,报告强调了在实施AI和ML技术时需要清晰的沟通、资源投入、跨学科合作以及对伦理问题的深思熟虑