BIBFRAME/MARC双向转换2.4版发布:拆分多载体资源

2023年11月底,美国国会图书馆(LC)发布了BIBFRAME词表(本体)2.3版和BIBFRAME/MARC双向转换2.4版。

via BIBFRAME Forum: New versions of BIBFRAME/MARC conversions released / Sally H. McCallum. 2023-12-1.

参见:BIBFRAME本体2.3版发布(2023-12-2)

按LC网络开发与标准办公室主任Sally McCallum在BIBFRAME邮件组发布信息的说法, 词表更新相对较少,双向转换的更新更为“实质性”。转换更新主要针对的是单条MARC记录中包含多个载体资源(多个007、300和3XX字段),先将其拆分为多条MARC记录,方便转换为一个作品、多个实例的BIBFRAME;相应地,从BIBFRAME转换、复合重建为对应的单条MARC记录。相对于原来各载体的描述混在一个BIBFRAME实例中无法区分,这确实是个非常重要的质量提升。

Jodi Williamschen和Kevin Ford在7月份的LD4在线会议上介绍了这项工作,可看油管视频和PPT:

Breaking news: Splitting MARC records to create better BIBFRAME data / Kevin Ford and Jodi Williamschen. 2023 LD4 Conference on Linked Data, July 12, 2023. 26 slides.

2.4版有个预处理(Preprocess 0),就是在一个Work中创建不同载体的多个Instance:由原单条MARC记录创建多条精简MARC记录,以新建的MARC758字段(资源标识符)链接。另外:原来入Work的007位的声音内容、色彩内容和相应的34X字段/子字段跟着分拆到Instance

由于MARC编目历史长且资源情况各异,单条MARC记录中包含多个载体资源会有不同做法。比如336-338字段的使用,重复300字段的做法,是在RDA实施后出现的,而MARC到BIBFRAME的转换需要针对所有遗留的MARC记录。 PPT以三个示例介绍不同做法:

  • 例一、照片有对应电子资源:2个007、1个856(其中300/336-338仅各1,对应第1个007;第2个007对应856)
  • 例二、音频盘有配套视频盘附件:2个007、300$e(336-338各2,分别配:第1个007+300$a$b$c,第2个007+300$e)
  • 例三、3个电影胶卷的合集:007/300配对(各3条)

基本做法是:主MARC记录包含连接到第1个007字段,以及所有其余MARC字段;其他MARC记录包含连接到各自007字段、前述相应子段/子字段(如856、300$e、300等),保留共同的008、260/264字段,并新增758字段(形式如 758 \\ $4 http://id.loc.gov/ontologies/bibframe/instanceOf $1 http://example.org/22913073#Work)。

PPT也谈到了转换仍然存在的问题【括号中为本人点评】

  • 无法保证007和300字段的顺序正确【如果完全依赖字段顺序,会有很大问题,应该辅以代码与描述的识别配对】
  • 当两个007字段用于描述资源的同一部分时,会创建额外的MARC记录【简单的重复?问题似乎不太大】
  • 实例标题的不确定性【本无单独著录,无解】

转换代码:

转换规范:

基础数据更新尚在进行中(毕竟MARC记录数量巨大),比较工具已是2.4版实时转换,记录实例