Share Family发展概要及2023年总结

Share Family 由两家意大利公司 Casalini Libri(书商)和 @cult(软件公司)主导,始于2016年意大利多家大学图书馆的联合目录SHARE。参见BIBFRAME 2.0实施注册新增项目(附:意大利SHARE目录)(2017-7-25)

SHARE原本是刻意选择的首字母缩略词 Scholarly Heritage and Access to Research,后来直接用作“共享”之意。2017年起公司与LD4P项目、若干北美大学图书馆共同开发Share-VDE,影响逐渐扩大。参见Share-VDE在图书馆关联开放数据中的作用(2021-10-30)

2019年12月,不定期刊物 Share Family Bulletin 发刊,显示Share Family雏形初现。之后各期,可追踪这些年的进展。

2023年建立 Share Family网站:https://www.Share-Family.org

刊物最新为2023年12月第8期 Share Family Bulletin (2023.12 no.8),总结2023年Share Family倡议的成就和挑战,实际也概述了整个发展史。

以下为第8期翻译摘编,含本人先前相关博文链接。文中的图似乎都是从之前各演讲PPT中取来,与文字不尽配套。

把原结语移到最前面,突显Share Family的背景与态度:

【结语】通过采用BIBFRAME作为与IFLA-LRM兼容的主要本体,Share Family利用关联开放数据的潜力,促进数据池之间的互操作性,与MARC共存。

Share Family发展时间线(2016-2023)

图[1]:Share Family发展时间线(2016-2023)

  • 2016 Share目录上线,开始Share-VDE原型;
  • 2017-2019 Share-VDE成员和LD4P成员数据由MARC21到BIBFRAME;
  • 2019-2021 Share-VDE 图书馆LOD环境;
  • 2021 Share Family启动全LOD平台项目;PCC数据池开始;Share-VDE 2.0 新关联数据管理系统和实体发现门户;国家书目工作组开始;
  • 2022 Share Family走向生产;
  • 2023 英国国家书目(beta)走向生产;JCricket【参见JCricket实体编辑器(2023-10-16)】
Share Family 活跃租户和发现网站

图[2]:Share Family 活跃租户和发现网站【图中没有LILLIT,有尚在开发中的3个项目Share ART艺术、Share MUSIC音乐、Share MIA手稿与古籍(LILLIT或归入此)】

Share Family 租户基础架构

图[3]:Share Family 租户基础架构【以 SVDE Sapientia CKB 中央知识库 为中心】

  • Share Family索引 -> SVDE Sapientia CKB/实体注册 -> Share-VDE发现端口和机构皮肤/各租户门户
  • Share Family索引 -> 各租户CKB -> 各租户网站
  • Share-VDE图书馆的原记录 -> SVDE Sapientia CKB

工作组/列举部分】Share-VDE和Share Family工作组,由咨询委员会指导:

  • SEI–Sapientia实体识别工作组:致力于创建Share-VDE本体(BIBFRAME的扩展)https://doi.org/10.5281/zenodo.8332350【参见:Share-VDE本体:BIBFRAME扩展(2023-10-15) /posts/2023/1015/6147】
  • 用户体验–用户界面工作组:测试和使用Share-VDE 2.0测试版和国家书目门户网站
  • 国家书目工作组
【第三方整合】
Share Family技术的发展包括将LOD平台产生的数据与外部系统相互集成的能力,尤其是与本地ILS和图书馆服务平台以及权威来源的集成。
  • 关于与ILS和LSP整合,值得一提的是一些进步:

-由SVDE AIMS工作组设计并由斯坦福大学图书馆进一步投入的基于MARC的工作流程的新规范服务已经完成,可供愿意测试和使用它们的机构使用。此外,AIMS工作组将于2024年重新召开会议,分析和设计基于RDF/关联数据的工作流的规范控制功能;

-Alma流通API与地方图书馆服务的整合工作基本完成;

-与原生BIBFRAME编目编辑器Sinopia的集成正在进行中:来自Sinopia将由Share-VDE过程聚类的传入RDF数据的解析器正在开发中;

-已经分析了与FOLIO ILS的连接,以将FOLIO典藏数据与Share-VDE数据相关联,并将JCrick用户界面集成到FOLIO中。Share Family团队的Andrea Gazzarini和WOLFcon 2023的Index Data的Sebastian Hammer提出了一个通过FOLIO进行ILS/LSP交互的可能模型,以在相关数据社区内讨论如何寻求这种联系。

  • 关于与规范系统整合,正在调查几个数据来源,在某些情况下,已经完成了初步整合步骤:

-LD4P提问规范(Questioning Authority)查询工具;

-用于相互丰富实体ID的Wikidata(最初的规范由SVDE工作组制定);

-用于相互丰富实体ID的ISNI(初始规范由SVDE工作组制定)。

UNIMARC-BIBFRAME转换

SHARE目录倡议已经完成了UNIMARC-BIBFRAME直接映射和转换的工作(没有通过MARC的中间步骤),并将通过将得到丰富和记录的Wikibase实例与关联数据社区共享这项工作https://unimarc2bibframe.wikibase.cloud/2024/1/5内容为空

非拉丁文字丰富LOD平台

  • 2024年国立台湾大学图书馆将加入Share Family,由国立台湾大学图书馆提供的数据将由LD4P非拉丁文字资料亲和小组进行测试;
  • 正在使用一个支持阿拉伯文字的测试门户进行实验

BIBFRAME/MARC双向转换2.4版发布:拆分多载体资源

2023年11月底,美国国会图书馆(LC)发布了BIBFRAME词表(本体)2.3版和BIBFRAME/MARC双向转换2.4版。

via BIBFRAME Forum: New versions of BIBFRAME/MARC conversions released / Sally H. McCallum. 2023-12-1.

参见:BIBFRAME本体2.3版发布(2023-12-2)

按LC网络开发与标准办公室主任Sally McCallum在BIBFRAME邮件组发布信息的说法, 词表更新相对较少,双向转换的更新更为“实质性”。转换更新主要针对的是单条MARC记录中包含多个载体资源(多个007、300和3XX字段),先将其拆分为多条MARC记录,方便转换为一个作品、多个实例的BIBFRAME;相应地,从BIBFRAME转换、复合重建为对应的单条MARC记录。相对于原来各载体的描述混在一个BIBFRAME实例中无法区分,这确实是个非常重要的质量提升。

Jodi Williamschen和Kevin Ford在7月份的LD4在线会议上介绍了这项工作,可看油管视频和PPT:

Breaking news: Splitting MARC records to create better BIBFRAME data / Kevin Ford and Jodi Williamschen. 2023 LD4 Conference on Linked Data, July 12, 2023. 26 slides.

2.4版有个预处理(Preprocess 0),就是在一个Work中创建不同载体的多个Instance:由原单条MARC记录创建多条精简MARC记录,以新建的MARC758字段(资源标识符)链接。另外:原来入Work的007位的声音内容、色彩内容和相应的34X字段/子字段跟着分拆到Instance

由于MARC编目历史长且资源情况各异,单条MARC记录中包含多个载体资源会有不同做法。比如336-338字段的使用,重复300字段的做法,是在RDA实施后出现的,而MARC到BIBFRAME的转换需要针对所有遗留的MARC记录。 PPT以三个示例介绍不同做法:

  • 例一、照片有对应电子资源:2个007、1个856(其中300/336-338仅各1,对应第1个007;第2个007对应856)
  • 例二、音频盘有配套视频盘附件:2个007、300$e(336-338各2,分别配:第1个007+300$a$b$c,第2个007+300$e)
  • 例三、3个电影胶卷的合集:007/300配对(各3条)

基本做法是:主MARC记录包含连接到第1个007字段,以及所有其余MARC字段;其他MARC记录包含连接到各自007字段、前述相应子段/子字段(如856、300$e、300等),保留共同的008、260/264字段,并新增758字段(形式如 758 \\ $4 http://id.loc.gov/ontologies/bibframe/instanceOf $1 http://example.org/22913073#Work)。

PPT也谈到了转换仍然存在的问题【括号中为本人点评】

  • 无法保证007和300字段的顺序正确【如果完全依赖字段顺序,会有很大问题,应该辅以代码与描述的识别配对】
  • 当两个007字段用于描述资源的同一部分时,会创建额外的MARC记录【简单的重复?问题似乎不太大】
  • 实例标题的不确定性【本无单独著录,无解】

转换代码:

转换规范:

基础数据更新尚在进行中(毕竟MARC记录数量巨大),比较工具已是2.4版实时转换,记录实例

BIBFRAME本体2.2版修订

BIBFRAME 2 版本的修订内容,主要有两个来源:

  • 其一,美国国会图书馆(LC),在 MARC/BIBFRAME 数据转换、BIBFRAME 编目试验等过程中发现;
  • 其二,公开接受建议,可在github中提交发现的问题、发布修订建议,接受质疑与讨论,确定修订后关闭评论。(问题讨论链接issues)https://github.com/lcnetdev/bibframe-ontology/issues

之前写过BIBFRAME本体的2.1版和2.3版更新,下面补上2.2版。参见:

2.2版(https://id.loc.gov/ontologies/bibframe-2-2-0.html)于2022-10-3发布,共28个变化,涉及17个类、11个属性。大致可归为3类:

一、新增类及属性,增强互操作(转换、映射)

1、新增资源类型(bf:Work的子类):(1)Integrating集成性[资源](2)Kit套件(bf:MixedMaterial的子类、bf:MixedMaterial又为bf:Work的子类)(3)Monograph专著/单行资源(4)MusicAudio音乐音频(bf:Audio的子类,bf:Audio又为bf:Work的子类)(5)NonMusicAudio非音乐音频(同MusicAudio)(6)Serial连续性[资源](7)Series丛编。

2、新增类DescriptionLevel / 属性descriptionLevel,对应MARC头标的编码等级(encodingLevel),但更改用词与DescriptionAuthentication、DescriptionConventions一致。

3、新增类Binding / 属性binding,合订方法,对应MARC/RDA结构化描述。

4、新增类Modification(bf:ProvisionActivity的子类),MODS映射时发现BIBFRAME缺少修改日期,本类可包括非日期修改如Agent。

5、新增属性validDate(bf:date的子属性),MODS映射时发现BIBFRAME缺少有效日期;同时也对应于MARC 046 特定编码日期。

二、扩大属性的定义域、值域,减少对应用的限制

1、取消值域:现期望值为rdfs:Resource(所有资源),减少对应用的限制(PCC认可):(1)carrier(原期望值bf:Carrier),(2)content(原bf:Content),(3)intendedAudience(原bf:IntendedAudience),(4)language(原bf:Language),(5)media(原bf:Media)

2、扩大定义域:originPlace(原用于bf:Work),现注释-建议使用:bf:Work 或 bf:Instance(MARC转换,370字段地点适用于作品,257字段地点适用于实例)

三、更正与纠错

1、更改类的定义:MixedMaterial,Multimedia(均为多种类型资源,区别在于是否由软件驱动)

2、修改子类(subClassOf):(1)Collection(添加子类bf:Work),(2)Manuscript(子类由bf:Instance改为bf:Work;对此修改尚有争议,见问题GH92:https://github.com/lcnetdev/bibframe-ontology/issues/92)

3、取消子类。描述/著录相关类,原误作AdminMetadata子类,现取消:(1)DescriptionAuthentication(描述验证)(2)DescriptionConventions(描述规则)(3)GenerationProcess([描述]生成处理)

4、更改属性标签:replacedBy,replacementOf(原分别为:succeededBy,precededBy )

附:Work和Instance的子类(2.3版)

  • bf:Work的子类共18种,加下位子类3种共21种(不含2.3版取消的Hub),其中2.2版新增*7种,修改+2种

Text

Cartography

Audio(子类:MusicAudio*,NonMusicAudio*)

NotatedMusic

NotatedMovement

Dataset

StillImage

MovingImage

Object

Multimedia

MixedMaterial(子类:Kit*)

Manuscript+(由bf:Instance子类改)

Collection+(增加为子类)

Arrangement

Integrating*

Monograph*

Serial*

Series*

  • Instance的子类共5种(其中2.3版新增*1种)

Print,Archival,Tactile,Electronic,Microform*