开放WEMI(openWEMI)提案发布

都柏林核心(DCMI)上月发布openWEMI接受评审。

openWEMI是一个RDF词表。如名称所示,基于国际图书馆协会联合会(IFLA)1997年《书目记录功能需求》(FRBR)首次引入的“作品、内容表达、载体表现、单件”(WEMI为其首字母缩略)概念。但openWEMI不考虑图书馆目录功能,定义了一组可在各种环境中使用的最小约束的类和属性,期望其他元数据模型能将openWEMI元素用作所定义的更具体资源类型的超类和超属性。【或许能像同样脱胎于图书馆界的都柏林核心(DC)那样,在互联网元数据中得到广泛应用】

相关链接:

openWEMI 词表定义了5个类(《入门》中有6个),其中Endeavor类来自2005年的FRBR Core,是WEMI的上级类【可作为属性的定义域/值域(WEMI中的多个)】,可在省略WEMI中任何一个时宽松使用:

  • Endeavor(一种创作)
    • Work(艺术或智力创作的抽象概念)
    • Expression(一种可感知的创作形式)
    • Manifestation(创作的物理体现)
    • Item(创作的示例)
  • ResponsibleEntity(《入门》:对创作负有一定责任的行为者)

openWEMI 词表定义了16个属性,可分为4组:责任关系、主要关系、共同关系、相关关系

相关关系:可以很宽松地认定。

共同关系:FRBR没有,指示两个资源表示或包含相同的 openWEMI 实体。

主要关系(内在关系),与FRBR不同之处在于,openWEMI不是 W—E—M—I 环环相扣的,可以省略中间层,如下图,可以W-E-I或W-M-I等(出自:openWEMI Primer):

主要关系

BIBFRAME/MARC双向转换2.4版发布:拆分多载体资源

2023年11月底,美国国会图书馆(LC)发布了BIBFRAME词表(本体)2.3版和BIBFRAME/MARC双向转换2.4版。

via BIBFRAME Forum: New versions of BIBFRAME/MARC conversions released / Sally H. McCallum. 2023-12-1.

参见:BIBFRAME本体2.3版发布(2023-12-2)

按LC网络开发与标准办公室主任Sally McCallum在BIBFRAME邮件组发布信息的说法, 词表更新相对较少,双向转换的更新更为“实质性”。转换更新主要针对的是单条MARC记录中包含多个载体资源(多个007、300和3XX字段),先将其拆分为多条MARC记录,方便转换为一个作品、多个实例的BIBFRAME;相应地,从BIBFRAME转换、复合重建为对应的单条MARC记录。相对于原来各载体的描述混在一个BIBFRAME实例中无法区分,这确实是个非常重要的质量提升。

Jodi Williamschen和Kevin Ford在7月份的LD4在线会议上介绍了这项工作,可看油管视频和PPT:

Breaking news: Splitting MARC records to create better BIBFRAME data / Kevin Ford and Jodi Williamschen. 2023 LD4 Conference on Linked Data, July 12, 2023. 26 slides.

2.4版有个预处理(Preprocess 0),就是在一个Work中创建不同载体的多个Instance:由原单条MARC记录创建多条精简MARC记录,以新建的MARC758字段(资源标识符)链接。另外:原来入Work的007位的声音内容、色彩内容和相应的34X字段/子字段跟着分拆到Instance

由于MARC编目历史长且资源情况各异,单条MARC记录中包含多个载体资源会有不同做法。比如336-338字段的使用,重复300字段的做法,是在RDA实施后出现的,而MARC到BIBFRAME的转换需要针对所有遗留的MARC记录。 PPT以三个示例介绍不同做法:

  • 例一、照片有对应电子资源:2个007、1个856(其中300/336-338仅各1,对应第1个007;第2个007对应856)
  • 例二、音频盘有配套视频盘附件:2个007、300$e(336-338各2,分别配:第1个007+300$a$b$c,第2个007+300$e)
  • 例三、3个电影胶卷的合集:007/300配对(各3条)

基本做法是:主MARC记录包含连接到第1个007字段,以及所有其余MARC字段;其他MARC记录包含连接到各自007字段、前述相应子段/子字段(如856、300$e、300等),保留共同的008、260/264字段,并新增758字段(形式如 758 \\ $4 http://id.loc.gov/ontologies/bibframe/instanceOf $1 http://example.org/22913073#Work)。

PPT也谈到了转换仍然存在的问题【括号中为本人点评】

  • 无法保证007和300字段的顺序正确【如果完全依赖字段顺序,会有很大问题,应该辅以代码与描述的识别配对】
  • 当两个007字段用于描述资源的同一部分时,会创建额外的MARC记录【简单的重复?问题似乎不太大】
  • 实例标题的不确定性【本无单独著录,无解】

转换代码:

转换规范:

基础数据更新尚在进行中(毕竟MARC记录数量巨大),比较工具已是2.4版实时转换,记录实例

BIBFRAME本体2.2版修订

BIBFRAME 2 版本的修订内容,主要有两个来源:

  • 其一,美国国会图书馆(LC),在 MARC/BIBFRAME 数据转换、BIBFRAME 编目试验等过程中发现;
  • 其二,公开接受建议,可在github中提交发现的问题、发布修订建议,接受质疑与讨论,确定修订后关闭评论。(问题讨论链接issues)https://github.com/lcnetdev/bibframe-ontology/issues

之前写过BIBFRAME本体的2.1版和2.3版更新,下面补上2.2版。参见:

2.2版(https://id.loc.gov/ontologies/bibframe-2-2-0.html)于2022-10-3发布,共28个变化,涉及17个类、11个属性。大致可归为3类:

一、新增类及属性,增强互操作(转换、映射)

1、新增资源类型(bf:Work的子类):(1)Integrating集成性[资源](2)Kit套件(bf:MixedMaterial的子类、bf:MixedMaterial又为bf:Work的子类)(3)Monograph专著/单行资源(4)MusicAudio音乐音频(bf:Audio的子类,bf:Audio又为bf:Work的子类)(5)NonMusicAudio非音乐音频(同MusicAudio)(6)Serial连续性[资源](7)Series丛编。

2、新增类DescriptionLevel / 属性descriptionLevel,对应MARC头标的编码等级(encodingLevel),但更改用词与DescriptionAuthentication、DescriptionConventions一致。

3、新增类Binding / 属性binding,合订方法,对应MARC/RDA结构化描述。

4、新增类Modification(bf:ProvisionActivity的子类),MODS映射时发现BIBFRAME缺少修改日期,本类可包括非日期修改如Agent。

5、新增属性validDate(bf:date的子属性),MODS映射时发现BIBFRAME缺少有效日期;同时也对应于MARC 046 特定编码日期。

二、扩大属性的定义域、值域,减少对应用的限制

1、取消值域:现期望值为rdfs:Resource(所有资源),减少对应用的限制(PCC认可):(1)carrier(原期望值bf:Carrier),(2)content(原bf:Content),(3)intendedAudience(原bf:IntendedAudience),(4)language(原bf:Language),(5)media(原bf:Media)

2、扩大定义域:originPlace(原用于bf:Work),现注释-建议使用:bf:Work 或 bf:Instance(MARC转换,370字段地点适用于作品,257字段地点适用于实例)

三、更正与纠错

1、更改类的定义:MixedMaterial,Multimedia(均为多种类型资源,区别在于是否由软件驱动)

2、修改子类(subClassOf):(1)Collection(添加子类bf:Work),(2)Manuscript(子类由bf:Instance改为bf:Work;对此修改尚有争议,见问题GH92:https://github.com/lcnetdev/bibframe-ontology/issues/92)

3、取消子类。描述/著录相关类,原误作AdminMetadata子类,现取消:(1)DescriptionAuthentication(描述验证)(2)DescriptionConventions(描述规则)(3)GenerationProcess([描述]生成处理)

4、更改属性标签:replacedBy,replacementOf(原分别为:succeededBy,precededBy )

附:Work和Instance的子类(2.3版)

  • bf:Work的子类共18种,加下位子类3种共21种(不含2.3版取消的Hub),其中2.2版新增*7种,修改+2种

Text

Cartography

Audio(子类:MusicAudio*,NonMusicAudio*)

NotatedMusic

NotatedMovement

Dataset

StillImage

MovingImage

Object

Multimedia

MixedMaterial(子类:Kit*)

Manuscript+(由bf:Instance子类改)

Collection+(增加为子类)

Arrangement

Integrating*

Monograph*

Serial*

Series*

  • Instance的子类共5种(其中2.3版新增*1种)

Print,Archival,Tactile,Electronic,Microform*