国际图联关于图书馆与人工智能的声明(2020)

不意看到国际图联(IFLA)关于图书馆与人工智能的声明,IFLA理事会2020年9月17日同意。作者是信息获取自由和言论自由委员会(FAIFE),不侧重技术,仍然具有其价值。声明还有3个附件,记录了丰富的早期应用实例。摘录存档如下【机译为主】。

IFLA Statement on Libraries and Artificial Intelligence. https://repository.ifla.org/handle/123456789/1646

人工智能(以下简称“AI”)和机器学习在私人和公共领域的应用正在迅速增长。本政策声明旨在概述在图书馆部门使用这些技术的关键考虑因素,并建议图书馆在人工智能日益融合的社会中应努力扮演的角色。

人工智能技术可以具有深刻的变革能力,它们的力量可以用于公益和创新服务。有了必要的准备——考虑到伦理问题和当前的局限性——图书馆可以负责任地使用人工智能技术来推进其社会使命。

  • 图书馆中的人工智能:将人工智能和机器学习技术融入日常工作。……[略]
  • 图书馆可以教育用户有关人工智能的知识,并帮助他们在更广泛地使用人工智能的社会中茁壮成长。……[略]
  • 图书馆可以支持高质量、合乎伦理的人工智能研究。……[略]

图书馆需要什么才能成功适应?

人工智能的变革性意味着,随着技术格局的变化,图书馆需要能够利用新资源,适当调整服务以满足不断变化的社会需求。

为此,图书馆员可能会受益于对技术前景的更多认识。由于人工智能可以显著重塑该行业的就业,他们可能还需要接受培训,以适应工作场所角色的可能转变。值得注意的是,不同部门的图书馆可能会受到不同的影响——例如,政府、法律和其他特殊图书馆可能会更加重视以知识为基础的服务提供。

图书馆需要具备采用和利用人工智能所需的法律、基础设施和技术。版权框架中的文本和数据挖掘例外对于图书馆继续履行使命并积极参与人工智能社区至关重要。

Recommendations 建议

基于上述情况,IFLA向政府、图书馆和图书馆协会提出以下建议:

各国政府(以及适当的政府间组织)应:

  • 在版权框架中包括文本和数据挖掘例外
  • 确保图书馆或图书馆网络具有所需的基础设施和能够采用和利用人工智能技术的技术。
  • 确保人工智能的任何监管都能保护隐私或公平原则,同时也能支持创新和公共利益目标。
  • 确保图书馆参与跨部门人工智能计划和战略的制定和实施。

图书馆协会和图书馆培训提供者应:

  • 支持图书馆专业人员了解人工智能的影响及其与隐私和伦理原则的交叉点。图书馆培训提供者应确保图书馆员能够发展相关的数字技能和能力。
  • 倡导图书馆在改变教育系统方面发挥更大作用,因为它们适应了人工智能可能带来的劳动力市场变化。
  • 与人工智能研究人员和开发人员合作,创建图书馆使用的应用程序,这些应用程序符合伦理和隐私标准,专门满足图书馆和图书馆读者的需求。
  • 充当论坛,交流图书馆人工智能技术伦理使用的最佳实践。

图书馆应在可能和适当的情况下:

  • 帮助他们的读者开发数字文献,包括对人工智能和算法如何工作的理解,以及相应的隐私和伦理问题。
  • 继续集中努力实现终身学习,并在可能的情况下为失业者提供服务。
  • 确保图书馆对人工智能技术的任何使用都应遵守明确的伦理标准,并保障用户的权利。
  • 采购符合法律和伦理隐私及无障碍要求的技术。

附件1:人工智能与知识自由

  • 图书馆中的AI:隐私考虑
  • 图书馆中的AI:偏见、透明度和可解释性

附件2:人工智能素养

人工智能素养可以被概念化为包含以下元素:

  • 对人工智能和机器学习如何工作、其基本逻辑及其局限性的基本理解;
  • 了解人工智能的潜在社会影响,特别是在人权领域;
  • 个人数据管理技能;
  • 媒体和信息素养。

附件3:人工智能 – 处于最前沿的图书馆【较多实例+链接,实际项目链接很可能已失效,但介绍链接通常有效】

  • 第1部分——反思图书馆在人工智能世界中的作用
  • 第2部分——图书馆与人工智能素养
  • 第3部分——图书馆中的人工智能

使用机器学习消除重复书目数据

对于联合目录,除编目员实时提交书目记录及馆藏信息,还会有各种批量导入数据(如各馆的回溯记录、在版编目记录、电子资源记录等),拒绝并消除(合并)重复数据是一项长期而艰巨的任务。数十年来,MARC格式和编目规则发生了多次变化,去重并不能简单地通过字段+字符的比对完成。

OCLC的WorldCat作为世界上最大的图书馆联合目录,目前收录书目记录近5.6亿条(https://www.oclc.org/en/worldcat/inside-worldcat.html),其中自不可避免有大量重复记录。

2023年8月19日,OCLC利用机器学习消除重复书目数据,通过算法处理100万条记录(500,000 对),合并WorldCat中500,000条重复记录合并,以期改善图书馆员工和最终用户的编目、检索和馆际互借体验。

见OCLC新闻:Leveraging machine learning technology as part of ongoing WorldCat quality measures. 2023-8-14. 

OCLC研究部博客有更详细介绍,以下为摘译:

Machine Learning and WorldCat: improving records for cataloging and discovery /Jenny Toves.Hanging together, 2023-8-14.  

OCLC自1980年代初开始手工删除重复记录,1990年代引入自动化流程“重复检测和解决”(Duplicate Detection and Resolution, DDR)。目前,平均每月手动删除 11,000 条记录,通过自动化删除 100万条记录。此外,每个月都会将数百万条新摄取的记录合并到现有的WorldCat记录中,也要避免新增重复记录。

2022年初,OCLC数据科学团队开始研究使用机器学习(ML)来识别WorldCat中的重复记录,即“基于样本数据(称为训练数据)构建模型的算法,以便在没有明确编程的情况下做出预测或决策”。

ML查看训练数据(标有正确答案的数据),并找出数据标记为保留或合并/删除的原因。然后,它将“学到”的知识应用到新的数据集上,ML会提供一个它认为被准确标记的百分比。如果ML可以通过DDR识别其他重复项,则可以通过我们的标准解决流程删除这些重复项,从而确保保留适当的记录。研究了不同的ML算法,但更重要的障碍是收集一组训练数据集以运行所选算法。

【标记训练数据】数据科学团队联系了数据质量团队以寻找数据集……让我们的成员参与到这个过程中来,就像许多人对手动重复数据删除所做的那样……要求成员图书馆(即编目专家)审查ML模型认为重复的记录对,并将它们标记为重复。

【标记界面】显示选择选项和正在分析的两条记录是否重复。该界面允许用户检索一对可能重复的书目记录,可以通过选择编目语言、资料类型和记录年龄的值来生成对。屏幕出现一对可能重复的记录,黄色表示两个字段之间存在差异,绿色表示字段完全相同;无底色表示该字段仅存在于其中一条记录中。用户要求选择这两条记录是否描述同一东西,可回答是、否或不确定。用户还可选中字段旁边的复选框,表明该字段与上述决定相关。

该工具包含两万对记录,目标是让每对由不同的审阅者审查三次。2022/12-2023/4期间共评估超过34,000对潜在的重复记录。虽然不是每对都有三条评审,但收集了大量数据来训练ML模型。我们发现,在收到多条评审的配对中,超过95%的评论者之间没有分歧。这表明该模型在识别重复项方面与人类相当。这些数据用于完善模型,数据质量团队审查了新结果的准确性。

AI4LRM:图档博人工智能社区

AI4LRMhttps://sites.google.com/view/ai4lam),一个专注于促进图书馆、档案馆和博物馆使用人工智能(AI)的国际社区。始于2018年挪威国家图书馆和斯坦福大学图书馆签署的谅解备忘录,2019年法国国家图书馆、史密森学会和大英图书馆加入,成立AI4LAM秘书处,负责协调和支持社区的活动。

从AI4LRM可获取的资源主要有以下3方面,很有参考价值:

  • Fantastic Futures(奇妙未来)——AI4LRM举办的年度会议,会议内容越来越丰富。 虽然资料不全,但除了第2次,至少有会议议程,可作为了解AI在图档博应用进展的起点,找寻自己感兴趣的内容:

第1次2018年,挪威国家图书馆,会议网页:https://www.nb.no/hva-skjer/ai-conference/(有报告概要;详细页链接失效)

第2次2019年,美国斯坦福大学图书馆,会议网页:https://library.stanford.edu/projects/fantastic-futures(链接失效)

第3次2021年,法国国家图书馆,会议网页:https://www.bnf.fr/fr/captations-et-supports-de-la-conference-2021(有视频、PPT)

第4次2022年,大英图书馆(虚拟会议),会议网页:https://sites.google.com/view/ai4lam/ai4lam-2022-virtual-event(有报告概要,录音等在 https://drive.google.com/drive/folders/1w4HT6n_uYDGOi8In_xSYB-HEqYazjtiO

第5次2023年,Internet Archives Canada,会议网页:https://ff2023.archive.org/(仅议程)

第6次2024年,澳大利亚国家电影和声音档案馆(NFSA),会议将于2024年10月召开:https://www.nfsa.gov.au/fantastic-futures-canberra-2024-artificial-intelligence-libraries-archives-and-museums

  • AI4LAM Awesome List(真棒清单)https://ai4lam.github.io/awesome-ai4lam/——在线资源清单。简短描述+链接,指向与AI和GLAM(画廊、图书馆、档案馆、博物馆)交叉点相关的学习资料、软件工具、项目和各种其他资源。
  • 工作组等——目前运作中的有2个工作组:元数据工作组AI教学工作组。有简单的年度报告和会议记录等文件。