法国国家图书馆人工智能路线图2021-2026

本文译自“法国国家图书馆和人工智能”(BnF and Artificial intelligence,介绍法国国家图书馆(BnF)计划应用人工智能(AI)的5个主要领域、5项行动和6个主要项目

其中5项行动和6个主要项目由《BnF人工智能路线图2021-2026》提出,首发于2021年12月在法国举办的第三届图书馆、档案馆和博物馆人工智能国际会议(AI4LAM, http://www.ai4lam.org/。路线图中有2021-2026各年计划。链接在文末。

—— 法国国家图书馆和人工智能 ——

两者的共同点是什么:在Gallica上查找你弟弟的替身的查询,几种手写音乐符号之间比较以确定复制古代乐谱的抄写员,以及预测BnF馆藏应如何处理以确保其最佳保存的能力?

这三项任务可以得到人工智能(AI)技术的支持。AI应用领域涵盖了图书馆的所有活动和服务,从而开辟了令人兴奋的视角和研究方法。

领域

AI项目可以组织在BnF的五个主要领域。这些领域与其收集、保存、编目和传播数量、种类和历史范围内的杰出馆藏的使命有关:

  • 支持编目活动
  • 馆藏管理
  • 搜索、分析内容并改进对内容的访问
  • 用户参与、正确看待内容
  • 决策和治理

路线图

构建一致、统一和负责任的AI政策

基于AI的处理、开发和项目需要一个一致的政策,能够让本馆内的AI社区参与进来,并解决伦理问题,如人与机器之间关系的演变。为了应对这些挑战,制定2021-2026年的路线图。

五项行动

文件于2021年12月在BnF召开的第三届图书馆、档案馆和博物馆人工智能国际会议上发表,阐述五项行动:

  1. 将AI挑战和项目作为机构全球战略的一部分
  2. 改进BnF的研发组织和实施
  3. 培养新技能
  4. 调整基础设施和数据管理
  5. 与其他利益攸关方一起设计一个多年期方案

重点项目和实验

路线图中描述的多年计划汇集了六个关键项目,这些项目势必将AI纳入图书馆的日常流程和服务。这种一体化需要从试验转向工业化。这就是Gallica(https://gallica.bnf.fr/)图像挖掘项目的全部内容。在该项目中,IIIF和机器学习等技术被用于定位和检测任何类型的文档(书籍、报纸等)中的图像,并添加标签或分析视觉内容,以促进数字馆藏的探索。与图像挖掘一样,BnF所有涉及AI的举措都依赖于BnF现有的工具和当前的项目。例如,它们与正在创建的新编目应用(称为NOEMI)有关,以确保书目转换,或与物品的物理管理和在亚眠(法国北部)建造新的保存建筑有关。

路线图的六个主要项目如下:

  • Gallica的图像挖掘(基于相似性和生成的关键字查询Gallica中的图像)
  • 将手写文本识别(HTR)集成到Gallica中(这项技术适用于手写文本,也适用于古代印刷作品和以罕用口语书写的文本)
  • 编目(日常编目支持、自动化机制的扩展和改进、实施LRM模型…)
  • 从伦理角度进行个性化内容推荐(也就是说,尊重多样性、数据隐私…)
  • 识别网络档案中的自主文档(学术文章、官方出版物等可以被AI在庞大的网络档案库中检测到,元数据可以被提取出来,以创建和丰富图书馆目录中的基本记录…)
  • 馆藏保护和管理的监测工具:该项目与物品管理和亚眠未来的保护点密切相关。AI协助图书馆员进行相关处理,以更好地保存损坏或易碎的文件,并准备书库和储藏室的设计等。

与这些项目相关的实验不断进行,但也通过其他机会(特别是在研究伙伴关系方面)进行。从这个角度来看,BnF数据实验室(BnF DataLab)被证明是一个重要的支持。

归档网上与AI相关内容

BnF不仅实施AI技术来处理和传播其馆藏:作为其法定呈缴任务的一部分,它还捕获网络上与AI相关的资源。例如,在2021年夏天,图书馆的爬虫收集了700多个由工作人员选择的网站或推特账户,总计超过1000万个URL。有关AI的伦理问题和社会经济后果,以及A[I]的科学和艺术用途或文学实验的资源都包含在本收藏中。

联系:DEPOT.LEGAL.WEB@BNF.FR

插图:C.Ardenti 和 L.Giocanti【文中图略】

资源

BnF Roadmap on AI, 2021-2026

  • 路线图 Roadmap: a visual summary (PDF下载)https://www.bnf.fr/sites/default/files/2022-01/Poster_AI%20Roadmap_BnF_202112.pdf

AI at the BnF , in libraries, in cultural institutions

  • 追随AI脚步的BnF数字路线图中的终极旅伴 BnF and AI: an itinerary through the fundamentals of AI. https://www.bnf.fr/en/mediatheque/ultimate-travel-companion-bnf-digital-roadmap-footsteps-artificial-intelligence-ai
  • 奇妙的未来2021:第3届AI4LAM国际会议 “Futurs fantastiques” 2021: 3rd international conference about Artificial Intelligence in Libraries, Archives and Museums. https://www.bnf.fr/en/les-futurs-fantastiques

百度AI开放平台和24小时智能图书馆

最近人工智能发展迅猛。听说百度上线了AI开放平台,去看了下:http://ai.baidu.com

百度AI开放平台上产品相当多,包括:语音(语音识别、语音合成、语音唤醒)、视频(内容分析、封面选取、比对检索、内容审核),文字识别、图像识别、人脸识别,增强现实,自然语言处理、机器翻译,数据智能(推荐、舆情、商情……),知识理解(实体标注)、知识图谱等等。还提供解决方案,介绍案例和应用场景,有文档中心、教学视频、SDK下载,似乎很可以玩玩。可惜本人已经无心尝试了。
本想试试通用文字识别效果,没仔细看,点击“立即使用”要求登录百度帐号。其实页面上是有功能演示,可以提供网址或上传图片检测结果。
登录帐号后显示,文字识别这一块,通过API每天可免费调用50-500次不等,超过0.0025元/次-0.005元/次不等;SDK开发语言有JAVA、PHP、Python、C#、C++、Node.JS、IOS、Android。
由于昨天登录帐号,然后稀里糊涂激活了开发者帐户,今天接到应该是来自百度的电话(竟然是手机),询问我需要什么产品。营销还真积极得出乎意料。

百度AI网站首页的新闻资讯,介绍24小时智能图书馆,应该是百度的人脸识别+江苏感创的RFID+其他智能电器(如空调、通风、灯光的智能调节)。以下介绍根据报道:
24小时智能图书馆 “AI”不只是刷脸开门(2018-3-29)

苏州工业园区图书馆·星海馆(位于星海广场)
试运营:2018年3月24日-4月22日,开馆时间 10:00-19:00
正式开馆:2018年4月23日世界读书日,24小时不间歇运营

星海馆历时197天搭建完成,采用透明玻璃盒设计,占地30平方米,内含2000册图书、2000种电子书、500种有声读物。
结合百度 AI 人脸识别技术,绑定个人信息,可以刷脸开门、刷脸借书,2秒人脸识别,15秒借还,30秒自助办证。
百度 AI 人脸识别技术,可以检测画面中的人脸,并为人脸标记出边框。然后对人脸进行分析,获得眼、口、鼻轮廓等72个关键点定位,准确识别多种人脸属性,如性别、年龄、表情等信息。该技术可适应大角度侧脸,遮挡,模糊,表情变化等各种实际环境。同时,其活体检测功能,能把照片、视频、倒模中的人脸统统筛掉,只有“活生生”的人脸,才能通过检测!
和现在十分普遍的指纹识别相比,被相同指纹破解的概率是五万分之一,而被相同面部破解的概率则是一百万分之一,安全性提升了20倍。