法国国家图书馆的MARC格式:Intermarc-NG

在欧美图书馆界的书目关联数据关注点集中在BIBFRAME之时,法国是个例外。法国的书目转换计划(Tb, Transition bibliographique),在格式上仍然选择MARC,而且国家图书馆和高校图书馆还采用不同的格式。其中法国国家图书馆(BnF)采用新一代Intermarc(Intermarc-NG)。

参见:法国图书馆界的关联数据之路(BnF vs Abes) (2024-1-2)

在《资源描述与检索》(RDA)指导委员会(RSC)官网上找到2021年法国国家图书馆的一个PPT:Intermarc-NG Format. 2021-9-14. 8 slides. http://www.rda-rsc.org/sites/all/files/BNF_intermarc_Foucher.pdf

用7分钟时间展示:1.为什么选择Intermarc NG?2.Intermarc NG是如何编制的?3.Intermarc NG的原则 4.已经做了什么?5.还有什么要做?以下翻译1和3【方括号内为本人附注】

1. 为什么选择Intermarc NG?三个目标:

  • [1] 具有与IFLA LRM兼容并实现RDA-FR(RDA法国版)的格式:它应使BnF能够根据RDA-FR编目条例的规则,按照IFLA LRM模型本地生成数据。【其时BIBFRAME模型与LRM并不一致】
  • [2] 具有能够准确编目BnF资源的格式:Intermarc目前允许描述10种文献类型(从印刷品到硬币和奖章[实物])和9种规范记录。最终,Intermarc NG应详细描述15个实体。【BIBFRAME词表对很多类型资源还需要扩展】
  • [3] 具有可以根据BnF要求发展的格式:作为法定呈缴的保管人,BnF需要一种可以快速发展的格式,以跟上进入馆藏的文件特征的变化。【难以依赖BIBFRAME更新(标准如牙刷,总是自己的好)】

3. Intermarc NG的原则

  • IFLA LRM合规性
  • 实施RDA-FR
  • 保持marc格式的原则……但抑制[字段]标识符和编码信息字段【用不同字段而非字段标识符区分不同含义;编码信息字段通常有相应的描述字段】
  • 遵守ISO-2709
  • 所有实体的单一格式:取消规范/书目(A/B)格式区分
  • 具有相干块和子块的格式
  • 增加格式的助记符逻辑【子字段$w总是与附注相对应,含X5X的字段主要与作品相关】
  • 一种不断发展的格式(3位子字段和字母数字字段标签)【针对以往对MARC格式内在限制的质疑。目前未见含字母的字段名】
  • 更准确地将数据上下文化(在字段级别声明元数据的可能性)

法国国家图书馆的Intermarc网页:INTERMARC Bibliographique de diffusion(2020年8月)

从字段上看象是MARC21和UNIMARC的混合体,其中商业标目(72X-73X)是出版发行者检索点,原来的MARC没有【以下汉译基本来自自动翻译,错误不可避免,仅供参考】

  • Zones fixes 定长区【00X】000指南[头标24位] / 001记录标识号 / 003URL / 008编码通用信息区00-45 / 009编码信息字段
  • Numéros d’identification 标识号【01X-03X】015法国国家书目出版编号 / 017 / 018 / 020ISBN / 022ISSN / 023音乐 / 024ISMN / 027旧磁盘 / 028商业编号 / 030ISRC / 038商业条码
  • Autres informations codées 其他编码信息【04X-07X】040出版国 / 041语言 / 042比例和坐标 / 043地貌投影本初子午线 / 044日期 / 046持续时间 / 047文档款目 / 048乐器或声音数量 / 050媒体类型 / 051内容类型和媒介类型 / 072地理分类框架
  • Gestion des sous-notices 子记录摄入【08X-09X】082子记录ID / 093图像ID-用于扫描
  • Sous-zone d’informations codées 编码信息的子区($w参考子字段)
  • Vedettes principales 主要标目【1XX】100个人作者 / 101个人表演者 / 110团体作者 / 111解释性团体 / 140分类 / 141统一文本题名 / 142原题名 / 143形式题名 / 144统一音乐题名 / 145惯用题名 / 146资源包题名
  • Informations descriptives 描述性信息【2XX】210短识别题名 / 217标准地图丛编题名 / 222识别题名|参照题名 / 243编目员题名 / 245题名与责任 / 247题名与并列责任 / 248题名与责任更新 / 250版本|印刷|状态 / 255编号 / 256数学数据 / 257电子资源类型与尺寸 / 258音乐表演 / 260书目地址:出版发行制作复制 / 261书目地址:档案 / 263书目地址更新 / 265呈现地 / 266发行地 / 270书目地址:制造 / 280文档物理描述 / 281原文档物理描述 / 285图像技术 / 290专著集题名 / 292专著集并列题名 / 295文集或子集题名 / 297文集或子集并列题名
  • Notes 附注【3XX,83X】300通用附注 / 302语言 / 306电子资源类型和尺寸 / 308水印 / 309参考书目 / 310可用性和通信 / 312赞助商 / 313提及口译员和与会者 / 314文件完成 / 315创建节目 / 316首次发布 / 317作品历史 / 321索引连续出版物的书目 / 323附件材料责任说明 / 324复制 / 325作品的印刷或手稿来源 / 326周期性 / 327多卷专著分析 / 328学术作品 / 330摘要 / 331文档(或纲要)的内部结构 / 333编号 / 337技术规格 / 338如何访问数据 / 341最后一个数字 / 350标题和免责声明 / 351版本、印刷或状态 / 352书目地址 / 353材料或技术说明 / 354主题 / 355编辑文集 / 357献词 / 376相关出版物 / 385文档来源集的题名 / 393与本地数据相关的字段 / 395主文集 // 830CNLJ摘要和电子书 / 832对作品的评论 / 833来自CNLJ的评论)
  • Liens bibliographiques 书目链接【4XX】410属于文集的专著 / 420专著补充/421 / 422连续出版物的专著补充/423 / 430其他版本 / 431同一技术类别中其他状态 / 432不同技术类别中编辑 / 433A侵权[?] / 434伪造 / 440记录节目的专著 / 441A游览 / 443用于恢复的A / 446参观 / 448恢复 / 450属于虚拟集的专著 / 455虚拟集间链接 / 460属于专著集的专著 / 465专题集间链接 / 470属于连续出版物的专著 / 480不同类型文档间-两个专著记录间 / 490不同类型文档间-专著剥离另一专著
  • Zones de transcription 转录区【5XX】520文本提示 / 522音乐 / 524音乐编码 / 550连续出版物上显示的作者团体名称
  • Indexation 索引[主题]【6XX】600个人名称主题 / 601统一文本题名主题 / 602连续出版物题名主题 / 603匿名标题主题 / 604音乐统一题名主题 / 605惯用题名主题 / 606通用名称主题 / 607地理名称主题 / 608体裁形式功能标题 / 609资料标记标题 / 610团体主题 / 615外国资料标题?/ 616专题地图和平面图 / 617地理标题 / 619非受控词 / 620产品所涉及的领域 / 621发生日期 / 626图像美学 / 630一般主题标题 / 640 视听体裁 / 641图像体裁 / 645类型 / 646图像类型 / 647地图类型 / 675CDU索引 / 676杜威索引(CDD)/ 680分类框架 / 681法国历史索引
  • Vedettes secondaires 次要标目【700-71X】700个人作者 / 701个人口译者 / 702个人客座技术艺术协作者 / 703个人参与者 /710/711/712/713团体……
  • Vedettes commerciales 商业标目【72X-73X】720个人出版商 / 721个人发行者 / 722声音文件个人制作者 / 723标记 / 725个人生产者 / 726音像文件个人制作者 / 727个人制造者或服务提供者 /730/731/732/735/736/737团体……
  • Vedettes secondaires titre 次要题名标目[对应14X]【74X-75X】741统一文本题名 / 743形式题名 / 744音乐统一题名 / 745惯用题名 / 748同一作者的其他题名 / 749多卷专著的卷题名 / 750交替文档题名 / 751作品的变异题名 / 753历史题名变异
  • Liens bibliographiques entre publications en série 连续出版物之间的书目链接【76X-79X】760是…子集 / 761是…补充或插入 / 763是专著的补充 / 765a作为子集 / 766a作为补充或插入 / 768作为专著的补充 / 770是…的一个版本 / 775a用于其他版本 / 776其他格式 / 780先前题名 / 784与…合并 / 785后续题名 / 787链接题名 / 790历史记录链接
  • Autres identifiants 其他标识符【84X-85X】842链接到属于参考目录集的记录 / 856电子邮件地址和其他信息
  • Informations locales 本地信息【90X-93X】905不分配ISSN的原因 / 917从旧BnF系统检索的记录编号 / 918装载期间的记录编号(迁移存储区域)/ 919从外部或外部系统的旧BnF系统检索的记录编号 / 934在BnF外部复制
  • Zones de gestion 摄入区【98X-99X】987新版本阻止记录的第一记录编号或基本记录或主记录编号 / 996合并到BnF总目录中的记录编号 / 998在加载到BnF总目录之前合并的记录编号

法国图书馆界的关联数据之路(BnF vs Abes)

2023年9月召开的欧洲BIBFRAME研讨会,相关/社区报告(非BIBFRAME应用)只有一个,关于法国和国际图书馆的两种不同的关联数据路径,介绍6月完成的一项研究,由法国高等教育书目机构(Abes)委托一家咨询公司所做:

走向关联数据之路 En route to Linked Data: A study for Abes / Maurits van der Graaf (Pleiade Management & Consultancy). 8s.

会议PPT仅8张,是一个很好的概述。概言之,在书目向关联数据的转换上,法国与国际路线不同,格式不采用BIBFRAME,编目规则不采用原RDA/新RDA,而是使用RDA-FR(法国版RDA)。

法国的书目转换(Tb, Transition bibliographique)由法国国家图书馆(BnF)和法国高等教育书目机构(Abes)共同推动。在格式上,两家有所不同 :

  • BnF是所有非高等教育图书馆的书目机构,内部格式Intermarc(正开发新一代Intermarc-NG),交换格式Unimarc;
  • Abes是所有高等教育图书馆的书目机构、有200多个高校图书馆参与,管理共享编目系统SUDOC,交换格式Unimarc(及Marc21),准备升级到实体关系的UNIMARC-ER。

所介绍的研究报告共57页,有5页英文摘要:

书目转换对高等教育图书馆的实际影响 LES IMPLICATIONS PRATIQUES DE LA TRANSITION BIBLIOGRAPHIQUE POUR LES BIBLIOTHÈQUES D’ESR / Maurits van der Graaf; Pleiade Management et Consultancy. 27 juin 2023.

报告研究对三方面代表进行了访谈:国际图书馆和国际图书馆组织(关于RDA),图书馆管理系统供应商、图书供应商和出版商,法国图书馆代表。有美国国会图书馆(LC)、瑞典Libris XL、芬兰Melinda两个共享编目系统(后者开发中)、Share-VDE、OCLC/WorldCat与BIBFRAME/关联数据相关的介绍。

有关Abes实施书目转换的时间,文中称:Sudoc的准备阶段将持续4至6年,各校图书馆的转换阶段可能持续8至12年。这表明法国高等教育部门的横向转型可能在2040年左右完成。

不久前法国的书目战略委员会(CSB)给出了执行时间表。可参见:

另可回顾十年前的法国看法及其发布的关联开放数据:

法国国家图书馆人工智能路线图2021-2026

本文译自“法国国家图书馆和人工智能”(BnF and Artificial intelligence,介绍法国国家图书馆(BnF)计划应用人工智能(AI)的5个主要领域、5项行动和6个主要项目

其中5项行动和6个主要项目由《BnF人工智能路线图2021-2026》提出,首发于2021年12月在法国举办的第三届图书馆、档案馆和博物馆人工智能国际会议(AI4LAM, http://www.ai4lam.org/。路线图中有2021-2026各年计划。链接在文末。

—— 法国国家图书馆和人工智能 ——

两者的共同点是什么:在Gallica上查找你弟弟的替身的查询,几种手写音乐符号之间比较以确定复制古代乐谱的抄写员,以及预测BnF馆藏应如何处理以确保其最佳保存的能力?

这三项任务可以得到人工智能(AI)技术的支持。AI应用领域涵盖了图书馆的所有活动和服务,从而开辟了令人兴奋的视角和研究方法。

领域

AI项目可以组织在BnF的五个主要领域。这些领域与其收集、保存、编目和传播数量、种类和历史范围内的杰出馆藏的使命有关:

  • 支持编目活动
  • 馆藏管理
  • 搜索、分析内容并改进对内容的访问
  • 用户参与、正确看待内容
  • 决策和治理

路线图

构建一致、统一和负责任的AI政策

基于AI的处理、开发和项目需要一个一致的政策,能够让本馆内的AI社区参与进来,并解决伦理问题,如人与机器之间关系的演变。为了应对这些挑战,制定2021-2026年的路线图。

五项行动

文件于2021年12月在BnF召开的第三届图书馆、档案馆和博物馆人工智能国际会议上发表,阐述五项行动:

  1. 将AI挑战和项目作为机构全球战略的一部分
  2. 改进BnF的研发组织和实施
  3. 培养新技能
  4. 调整基础设施和数据管理
  5. 与其他利益攸关方一起设计一个多年期方案

重点项目和实验

路线图中描述的多年计划汇集了六个关键项目,这些项目势必将AI纳入图书馆的日常流程和服务。这种一体化需要从试验转向工业化。这就是Gallica(https://gallica.bnf.fr/)图像挖掘项目的全部内容。在该项目中,IIIF和机器学习等技术被用于定位和检测任何类型的文档(书籍、报纸等)中的图像,并添加标签或分析视觉内容,以促进数字馆藏的探索。与图像挖掘一样,BnF所有涉及AI的举措都依赖于BnF现有的工具和当前的项目。例如,它们与正在创建的新编目应用(称为NOEMI)有关,以确保书目转换,或与物品的物理管理和在亚眠(法国北部)建造新的保存建筑有关。

路线图的六个主要项目如下:

  • Gallica的图像挖掘(基于相似性和生成的关键字查询Gallica中的图像)
  • 将手写文本识别(HTR)集成到Gallica中(这项技术适用于手写文本,也适用于古代印刷作品和以罕用口语书写的文本)
  • 编目(日常编目支持、自动化机制的扩展和改进、实施LRM模型…)
  • 从伦理角度进行个性化内容推荐(也就是说,尊重多样性、数据隐私…)
  • 识别网络档案中的自主文档(学术文章、官方出版物等可以被AI在庞大的网络档案库中检测到,元数据可以被提取出来,以创建和丰富图书馆目录中的基本记录…)
  • 馆藏保护和管理的监测工具:该项目与物品管理和亚眠未来的保护点密切相关。AI协助图书馆员进行相关处理,以更好地保存损坏或易碎的文件,并准备书库和储藏室的设计等。

与这些项目相关的实验不断进行,但也通过其他机会(特别是在研究伙伴关系方面)进行。从这个角度来看,BnF数据实验室(BnF DataLab)被证明是一个重要的支持。

归档网上与AI相关内容

BnF不仅实施AI技术来处理和传播其馆藏:作为其法定呈缴任务的一部分,它还捕获网络上与AI相关的资源。例如,在2021年夏天,图书馆的爬虫收集了700多个由工作人员选择的网站或推特账户,总计超过1000万个URL。有关AI的伦理问题和社会经济后果,以及A[I]的科学和艺术用途或文学实验的资源都包含在本收藏中。

联系:DEPOT.LEGAL.WEB@BNF.FR

插图:C.Ardenti 和 L.Giocanti【文中图略】

资源

BnF Roadmap on AI, 2021-2026

  • 路线图 Roadmap: a visual summary (PDF下载)https://www.bnf.fr/sites/default/files/2022-01/Poster_AI%20Roadmap_BnF_202112.pdf

AI at the BnF , in libraries, in cultural institutions

  • 追随AI脚步的BnF数字路线图中的终极旅伴 BnF and AI: an itinerary through the fundamentals of AI. https://www.bnf.fr/en/mediatheque/ultimate-travel-companion-bnf-digital-roadmap-footsteps-artificial-intelligence-ai
  • 奇妙的未来2021:第3届AI4LAM国际会议 “Futurs fantastiques” 2021: 3rd international conference about Artificial Intelligence in Libraries, Archives and Museums. https://www.bnf.fr/en/les-futurs-fantastiques