法国:书目转换的共同方向和战略(2023)

法国在2015年由法国高等教育书目机构 (Abes) 和法国国家图书馆 (BnF)启动书目转换计划(Transition bibliographique),目标是通过应用FRBR(现在的IFLA-LRM模型),采用源自《资源描述和检索》(RDA)的新编目规则(RDA-FR),提高书目和规范数据在数据网络中的曝光率。

参见:

不久前,法国的书目战略委员会(CSB)发布《书目转换的共同方向和战略》(Orientation et stratégie commune sur la Transition bibliographique : conclusions du CSB exceptionnel du 18/10/23),通告书目转换计划未来几年的执行时间表【不懂法语,以下主要依据微软/百度翻译】:

  • 2023年:完成 RDA-FR 本体。加上 2022 年提供的 LRM化 Unimarc 数据的第一套测试集,专业人士和软件出版商可用以准备实施 RDA-FR 所需的技术转型。
  • 2024年夏季:完成 RDA-FR 条例,适用于所有实体和基本关系。
  • 2026年1月:BnF 将推出其用于制作和传播书目数据的新工具,实施 RDA-FR 条例。从这一天起,它将能够以与IFLA LRM兼容的格式向其网络中的专业人员提供其数据。
  • 2028年:Abes将按照其建立项目将其新的 IT 文档系统投入运行。该系统将允许在同一天以与IFLA LRM兼容的格式传播和交换数据。

文中特别强调“Abes 和 BnF 致力于继续以当前的 Marc 格式传播其书目数据”。从其他来源看,前者用 UNIMARC-ER(UNIMARC揭示实体关系的更新),后者用 Intermarc-NG(新一代Intermarc,书目与规范一体的MARC格式)。

相关资源:

开放WEMI(openWEMI)提案发布

都柏林核心(DCMI)上月发布openWEMI接受评审。

openWEMI是一个RDF词表。如名称所示,基于国际图书馆协会联合会(IFLA)1997年《书目记录功能需求》(FRBR)首次引入的“作品、内容表达、载体表现、单件”(WEMI为其首字母缩略)概念。但openWEMI不考虑图书馆目录功能,定义了一组可在各种环境中使用的最小约束的类和属性,期望其他元数据模型能将openWEMI元素用作所定义的更具体资源类型的超类和超属性。【或许能像同样脱胎于图书馆界的都柏林核心(DC)那样,在互联网元数据中得到广泛应用】

相关链接:

openWEMI 词表定义了5个类(《入门》中有6个),其中Endeavor类来自2005年的FRBR Core,是WEMI的上级类【可作为属性的定义域/值域(WEMI中的多个)】,可在省略WEMI中任何一个时宽松使用:

  • Endeavor(一种创作)
    • Work(艺术或智力创作的抽象概念)
    • Expression(一种可感知的创作形式)
    • Manifestation(创作的物理体现)
    • Item(创作的示例)
  • ResponsibleEntity(《入门》:对创作负有一定责任的行为者)

openWEMI 词表定义了16个属性,可分为4组:责任关系、主要关系、共同关系、相关关系

相关关系:可以很宽松地认定。

共同关系:FRBR没有,指示两个资源表示或包含相同的 openWEMI 实体。

主要关系(内在关系),与FRBR不同之处在于,openWEMI不是 W—E—M—I 环环相扣的,可以省略中间层,如下图,可以W-E-I或W-M-I等(出自:openWEMI Primer):

主要关系

BIBFRAME/MARC双向转换2.4版发布:拆分多载体资源

2023年11月底,美国国会图书馆(LC)发布了BIBFRAME词表(本体)2.3版和BIBFRAME/MARC双向转换2.4版。

via BIBFRAME Forum: New versions of BIBFRAME/MARC conversions released / Sally H. McCallum. 2023-12-1.

参见:BIBFRAME本体2.3版发布(2023-12-2)

按LC网络开发与标准办公室主任Sally McCallum在BIBFRAME邮件组发布信息的说法, 词表更新相对较少,双向转换的更新更为“实质性”。转换更新主要针对的是单条MARC记录中包含多个载体资源(多个007、300和3XX字段),先将其拆分为多条MARC记录,方便转换为一个作品、多个实例的BIBFRAME;相应地,从BIBFRAME转换、复合重建为对应的单条MARC记录。相对于原来各载体的描述混在一个BIBFRAME实例中无法区分,这确实是个非常重要的质量提升。

Jodi Williamschen和Kevin Ford在7月份的LD4在线会议上介绍了这项工作,可看油管视频和PPT:

Breaking news: Splitting MARC records to create better BIBFRAME data / Kevin Ford and Jodi Williamschen. 2023 LD4 Conference on Linked Data, July 12, 2023. 26 slides.

2.4版有个预处理(Preprocess 0),就是在一个Work中创建不同载体的多个Instance:由原单条MARC记录创建多条精简MARC记录,以新建的MARC758字段(资源标识符)链接。另外:原来入Work的007位的声音内容、色彩内容和相应的34X字段/子字段跟着分拆到Instance

由于MARC编目历史长且资源情况各异,单条MARC记录中包含多个载体资源会有不同做法。比如336-338字段的使用,重复300字段的做法,是在RDA实施后出现的,而MARC到BIBFRAME的转换需要针对所有遗留的MARC记录。 PPT以三个示例介绍不同做法:

  • 例一、照片有对应电子资源:2个007、1个856(其中300/336-338仅各1,对应第1个007;第2个007对应856)
  • 例二、音频盘有配套视频盘附件:2个007、300$e(336-338各2,分别配:第1个007+300$a$b$c,第2个007+300$e)
  • 例三、3个电影胶卷的合集:007/300配对(各3条)

基本做法是:主MARC记录包含连接到第1个007字段,以及所有其余MARC字段;其他MARC记录包含连接到各自007字段、前述相应子段/子字段(如856、300$e、300等),保留共同的008、260/264字段,并新增758字段(形式如 758 \\ $4 http://id.loc.gov/ontologies/bibframe/instanceOf $1 http://example.org/22913073#Work)。

PPT也谈到了转换仍然存在的问题【括号中为本人点评】

  • 无法保证007和300字段的顺序正确【如果完全依赖字段顺序,会有很大问题,应该辅以代码与描述的识别配对】
  • 当两个007字段用于描述资源的同一部分时,会创建额外的MARC记录【简单的重复?问题似乎不太大】
  • 实例标题的不确定性【本无单独著录,无解】

转换代码:

转换规范:

基础数据更新尚在进行中(毕竟MARC记录数量巨大),比较工具已是2.4版实时转换,记录实例