法国国家图书馆人工智能路线图2021-2026

本文译自“法国国家图书馆和人工智能”(BnF and Artificial intelligence,介绍法国国家图书馆(BnF)计划应用人工智能(AI)的5个主要领域、5项行动和6个主要项目

其中5项行动和6个主要项目由《BnF人工智能路线图2021-2026》提出,首发于2021年12月在法国举办的第三届图书馆、档案馆和博物馆人工智能国际会议(AI4LAM, http://www.ai4lam.org/。路线图中有2021-2026各年计划。链接在文末。

—— 法国国家图书馆和人工智能 ——

两者的共同点是什么:在Gallica上查找你弟弟的替身的查询,几种手写音乐符号之间比较以确定复制古代乐谱的抄写员,以及预测BnF馆藏应如何处理以确保其最佳保存的能力?

这三项任务可以得到人工智能(AI)技术的支持。AI应用领域涵盖了图书馆的所有活动和服务,从而开辟了令人兴奋的视角和研究方法。

领域

AI项目可以组织在BnF的五个主要领域。这些领域与其收集、保存、编目和传播数量、种类和历史范围内的杰出馆藏的使命有关:

  • 支持编目活动
  • 馆藏管理
  • 搜索、分析内容并改进对内容的访问
  • 用户参与、正确看待内容
  • 决策和治理

路线图

构建一致、统一和负责任的AI政策

基于AI的处理、开发和项目需要一个一致的政策,能够让本馆内的AI社区参与进来,并解决伦理问题,如人与机器之间关系的演变。为了应对这些挑战,制定2021-2026年的路线图。

五项行动

文件于2021年12月在BnF召开的第三届图书馆、档案馆和博物馆人工智能国际会议上发表,阐述五项行动:

  1. 将AI挑战和项目作为机构全球战略的一部分
  2. 改进BnF的研发组织和实施
  3. 培养新技能
  4. 调整基础设施和数据管理
  5. 与其他利益攸关方一起设计一个多年期方案

重点项目和实验

路线图中描述的多年计划汇集了六个关键项目,这些项目势必将AI纳入图书馆的日常流程和服务。这种一体化需要从试验转向工业化。这就是Gallica(https://gallica.bnf.fr/)图像挖掘项目的全部内容。在该项目中,IIIF和机器学习等技术被用于定位和检测任何类型的文档(书籍、报纸等)中的图像,并添加标签或分析视觉内容,以促进数字馆藏的探索。与图像挖掘一样,BnF所有涉及AI的举措都依赖于BnF现有的工具和当前的项目。例如,它们与正在创建的新编目应用(称为NOEMI)有关,以确保书目转换,或与物品的物理管理和在亚眠(法国北部)建造新的保存建筑有关。

路线图的六个主要项目如下:

  • Gallica的图像挖掘(基于相似性和生成的关键字查询Gallica中的图像)
  • 将手写文本识别(HTR)集成到Gallica中(这项技术适用于手写文本,也适用于古代印刷作品和以罕用口语书写的文本)
  • 编目(日常编目支持、自动化机制的扩展和改进、实施LRM模型…)
  • 从伦理角度进行个性化内容推荐(也就是说,尊重多样性、数据隐私…)
  • 识别网络档案中的自主文档(学术文章、官方出版物等可以被AI在庞大的网络档案库中检测到,元数据可以被提取出来,以创建和丰富图书馆目录中的基本记录…)
  • 馆藏保护和管理的监测工具:该项目与物品管理和亚眠未来的保护点密切相关。AI协助图书馆员进行相关处理,以更好地保存损坏或易碎的文件,并准备书库和储藏室的设计等。

与这些项目相关的实验不断进行,但也通过其他机会(特别是在研究伙伴关系方面)进行。从这个角度来看,BnF数据实验室(BnF DataLab)被证明是一个重要的支持。

归档网上与AI相关内容

BnF不仅实施AI技术来处理和传播其馆藏:作为其法定呈缴任务的一部分,它还捕获网络上与AI相关的资源。例如,在2021年夏天,图书馆的爬虫收集了700多个由工作人员选择的网站或推特账户,总计超过1000万个URL。有关AI的伦理问题和社会经济后果,以及A[I]的科学和艺术用途或文学实验的资源都包含在本收藏中。

联系:DEPOT.LEGAL.WEB@BNF.FR

插图:C.Ardenti 和 L.Giocanti【文中图略】

资源

BnF Roadmap on AI, 2021-2026

  • 路线图 Roadmap: a visual summary (PDF下载)https://www.bnf.fr/sites/default/files/2022-01/Poster_AI%20Roadmap_BnF_202112.pdf

AI at the BnF , in libraries, in cultural institutions

  • 追随AI脚步的BnF数字路线图中的终极旅伴 BnF and AI: an itinerary through the fundamentals of AI. https://www.bnf.fr/en/mediatheque/ultimate-travel-companion-bnf-digital-roadmap-footsteps-artificial-intelligence-ai
  • 奇妙的未来2021:第3届AI4LAM国际会议 “Futurs fantastiques” 2021: 3rd international conference about Artificial Intelligence in Libraries, Archives and Museums. https://www.bnf.fr/en/les-futurs-fantastiques

法国:书目转换的共同方向和战略(2023)

法国在2015年由法国高等教育书目机构 (Abes) 和法国国家图书馆 (BnF)启动书目转换计划(Transition bibliographique),目标是通过应用FRBR(现在的IFLA-LRM模型),采用源自《资源描述和检索》(RDA)的新编目规则(RDA-FR),提高书目和规范数据在数据网络中的曝光率。

参见:

不久前,法国的书目战略委员会(CSB)发布《书目转换的共同方向和战略》(Orientation et stratégie commune sur la Transition bibliographique : conclusions du CSB exceptionnel du 18/10/23),通告书目转换计划未来几年的执行时间表【不懂法语,以下主要依据微软/百度翻译】:

  • 2023年:完成 RDA-FR 本体。加上 2022 年提供的 LRM化 Unimarc 数据的第一套测试集,专业人士和软件出版商可用以准备实施 RDA-FR 所需的技术转型。
  • 2024年夏季:完成 RDA-FR 条例,适用于所有实体和基本关系。
  • 2026年1月:BnF 将推出其用于制作和传播书目数据的新工具,实施 RDA-FR 条例。从这一天起,它将能够以与IFLA LRM兼容的格式向其网络中的专业人员提供其数据。
  • 2028年:Abes将按照其建立项目将其新的 IT 文档系统投入运行。该系统将允许在同一天以与IFLA LRM兼容的格式传播和交换数据。

文中特别强调“Abes 和 BnF 致力于继续以当前的 Marc 格式传播其书目数据”。从其他来源看,前者用 UNIMARC-ER(UNIMARC揭示实体关系的更新),后者用 Intermarc-NG(新一代Intermarc,书目与规范一体的MARC格式)。

相关资源:

法国国家图书馆开放数据:data.bnf.fr

法国国家图书馆(BnF)开放数据包括该馆主目录、档案和手稿、以及Gallica的数百万份数字馆藏等。data.bnf.fr项目致力于使法国国家图书馆制作的数据在网络上更有用。data.bnf.fr和Gallica在2013年获斯坦福研究图书馆创新奖(SPIRL)。

数据共享采用“法国开放协议”(法国版CC-by),RDF数据可供营利或非营利免费重复使用和复制,但必须标注引用来源。BnF参与开放数据运动的“主要目的是民主和经济,换句话说,使公共行动更加透明和有效;通过广播和收集数据使公共数据的创建合理化,另一方面,通过为商业或非商业用途提供可重用和有用的信息来促进经济活动”(https://data.bnf.fr/en/about)。——以前自己更多地关注开放数据的“民主”方面,不怎么注意“经济”,真是很大的偏视。

数据模型https://data.bnf.fr/en/abouthttp://data.bnf.fr/images/modele_donnees_2018_02.pdf

模型基于FRBR,除FRBR的3大类实体:作者Auteur、作品OEuvre、概念/主题Theme,还单列了另3个 【亮点】:地点Lieu、日期Date、场景Spectacle。

在数据汇集页面,作者、作品、主题的内容来自BnF的相应规范记录。而地点、日期、场景则是传统书目数据未加汇集的信息,来自不同元数据元素:

日期(通常是年份):日期相关主题,当年出生或死亡作者,当年创建或活跃期终结的机构,当年创作或完成的作品、表演的演出和出版的文献。

地点:出生或死于此地的作者,创建于此的机构,出版于此的期刊和文献、表演于此、录制于此、战争或签署于此的条约。

场景:体现了对“事件”的重视。数据汇集中目前有“演出”,在项目介绍的各页面未见涉及,当为场景/事件的体现,日期与地点中也有表演相关信息。

RDF词表和取值词表https://data.bnf.fr/en/opendata

*BnF本体:bnf-onto(网页显示仅11个元素,本体文件http://data.bnf.fr/ontology/bnf-onto/中有35个元素)
*复用词表:rdf, rdfs, skos, dcterms, foaf, RDAgroup2elements, rdvocab【2个非官方的RDA词表】
*BnF取值词表(网页仅列3个,取值词表http://data.bnf.fr/vocabulary-en页面多2种)
*Intermarc与RDF语言映射

原始数据格式:Intermarc用于印刷书籍目录,XML-EAD用于档案库存,Dublin Core用于数字图书馆。

为搜索引擎和社会网络嵌入数据https://data.bnf.fr/en/opendata)【亮点,社会网络用OG是我首次见到】

为方便搜索引擎索引,对“作者”“作品”和“主题”页面,以微数据格式嵌入Schema.org元素,内容包括个人、图书、机构,特别是机构子类演出团体、舞蹈团体、戏剧团体、音乐团体(与“演出”事件配套)

为方便页面在社会网络(脸书)中呈现,以RDFa元数据编码嵌入开放图谱协议Opengraph Protocol(OG),内容包括标题、描述、类型、URL、图像、作者。

消费外部资源https://data.bnf.fr/en/semanticweb

匹配外部取值词表:id.loc.gov用于语言和国籍,dewey.info用于主题,DCMI类型用于文档类型;

匹配外部数据集:DBpedia,VIAF。

法国国家图书馆的RAMEAU主题标目的页面与其他叙词表相匹配:来自图书馆(美国LCSH,德国DnB,西班牙BNE)或更专业(Agrovoc 联合国粮农组织词表,Geonames 地理名称数据库,Thesaurus W 法国国家档案馆叙词表)。

依作品校准和聚类https://data.bnf.fr/en/opendata

【“作品”识别是FRBR模型(或LRM)应用的一大挑战,在没有题名规范控制(如统一题名)时尤其如此。同时,大多数作品只有一个载体表现,没有对应的作品规范记录——不需要“汇集”,但也应该有其作品页面】

对于有名称规范和题名规范的记录,汇集作品很方便。
如果有名称规范但没有题名规范,BnF采用简单校准方法:载体表现与作品的题名相同时校准。

要更全面解决需要2种方法:

1、Alignment 校准/对齐:(在作者相同的前提下,对载体表现题名)使用前方一致、完全匹配、相距N个词、Levenstein距离、匹配算法,确定是否对应于相同的作品。

2、Clustering 聚类:新文献没有题名规范记录时,汇集载体表现。

概况与进展

data.bnf.fr网站2011年7月上线,定期更新,最近一次更新数据是2018-1-24。目前包括(https://data.bnf.fr/ontology/):作者225.5万,作品27.9万,论题/主题19万,地点11.8万,日期2618,演出5.9万,期刊34.2万。

虽然数据最后更新已有一年多,但网站的不同页面分别有2018年新完成任务和2019年计划,显示项目仍在持续中:

2018年对URI后缀作了修改(https://data.bnf.fr/en/opendata):原来实体本身无后缀、实体的描述#about、描述的描述#recrod,修改后,实体本身和实体的描述#about,描述的描述不带后缀——怎么感觉还是原来的更合理?

2019年有4个任务的路线图(https://data.bnf.fr/en/about):

1、改善数据的传播,通过更新定期更新来增强数据的新鲜度和完整性,通过发布Gallica数字文档的整个参考,并整合来自Web法定呈缴的信息等新资源。

2、校准BnF参考文献与来自Web可信运营商的其他参考资源,并加强data.bnf.fr作为法国在线文化数据中心的角色。

3、支持开放数据重用和测试创新的可视化,提出探索、分析和显示数据和馆藏的新方法,如“研讨会”页面已经做的那样。【新的事件类型?】

4、扩展数据处理,特别是在作品和文档之间建立链接,记住在我们的目录中实施FRBR模型。计算从书目记录到文本或音乐作品的规范记录的附加链接是一个问题,并且从长远来看,通过聚类作品的版本(载体表现)来创建作品的规范记录,即使它们尚不存在。【对有多个版本的作品创建规范记录】