Share Family发展概要及2023年总结

Share Family 由两家意大利公司 Casalini Libri(书商)和 @cult(软件公司)主导,始于2016年意大利多家大学图书馆的联合目录SHARE。参见BIBFRAME 2.0实施注册新增项目(附:意大利SHARE目录)(2017-7-25)

SHARE原本是刻意选择的首字母缩略词 Scholarly Heritage and Access to Research,后来直接用作“共享”之意。2017年起公司与LD4P项目、若干北美大学图书馆共同开发Share-VDE,影响逐渐扩大。参见Share-VDE在图书馆关联开放数据中的作用(2021-10-30)

2019年12月,不定期刊物 Share Family Bulletin 发刊,显示Share Family雏形初现。之后各期,可追踪这些年的进展。

2023年建立 Share Family网站:https://www.Share-Family.org

刊物最新为2023年12月第8期 Share Family Bulletin (2023.12 no.8),总结2023年Share Family倡议的成就和挑战,实际也概述了整个发展史。

以下为第8期翻译摘编,含本人先前相关博文链接。文中的图似乎都是从之前各演讲PPT中取来,与文字不尽配套。

把原结语移到最前面,突显Share Family的背景与态度:

【结语】通过采用BIBFRAME作为与IFLA-LRM兼容的主要本体,Share Family利用关联开放数据的潜力,促进数据池之间的互操作性,与MARC共存。

Share Family发展时间线(2016-2023)

图[1]:Share Family发展时间线(2016-2023)

  • 2016 Share目录上线,开始Share-VDE原型;
  • 2017-2019 Share-VDE成员和LD4P成员数据由MARC21到BIBFRAME;
  • 2019-2021 Share-VDE 图书馆LOD环境;
  • 2021 Share Family启动全LOD平台项目;PCC数据池开始;Share-VDE 2.0 新关联数据管理系统和实体发现门户;国家书目工作组开始;
  • 2022 Share Family走向生产;
  • 2023 英国国家书目(beta)走向生产;JCricket【参见JCricket实体编辑器(2023-10-16)】
Share Family 活跃租户和发现网站

图[2]:Share Family 活跃租户和发现网站【图中没有LILLIT,有尚在开发中的3个项目Share ART艺术、Share MUSIC音乐、Share MIA手稿与古籍(LILLIT或归入此)】

Share Family 租户基础架构

图[3]:Share Family 租户基础架构【以 SVDE Sapientia CKB 中央知识库 为中心】

  • Share Family索引 -> SVDE Sapientia CKB/实体注册 -> Share-VDE发现端口和机构皮肤/各租户门户
  • Share Family索引 -> 各租户CKB -> 各租户网站
  • Share-VDE图书馆的原记录 -> SVDE Sapientia CKB

工作组/列举部分】Share-VDE和Share Family工作组,由咨询委员会指导:

  • SEI–Sapientia实体识别工作组:致力于创建Share-VDE本体(BIBFRAME的扩展)https://doi.org/10.5281/zenodo.8332350【参见:Share-VDE本体:BIBFRAME扩展(2023-10-15) https://catwizard.net/posts/20231015091457.html】
  • 用户体验–用户界面工作组:测试和使用Share-VDE 2.0测试版和国家书目门户网站
  • 国家书目工作组
【第三方整合】
Share Family技术的发展包括将LOD平台产生的数据与外部系统相互集成的能力,尤其是与本地ILS和图书馆服务平台以及权威来源的集成。
  • 关于与ILS和LSP整合,值得一提的是一些进步:

-由SVDE AIMS工作组设计并由斯坦福大学图书馆进一步投入的基于MARC的工作流程的新规范服务已经完成,可供愿意测试和使用它们的机构使用。此外,AIMS工作组将于2024年重新召开会议,分析和设计基于RDF/关联数据的工作流的规范控制功能;

-Alma流通API与地方图书馆服务的整合工作基本完成;

-与原生BIBFRAME编目编辑器Sinopia的集成正在进行中:来自Sinopia将由Share-VDE过程聚类的传入RDF数据的解析器正在开发中;

-已经分析了与FOLIO ILS的连接,以将FOLIO典藏数据与Share-VDE数据相关联,并将JCrick用户界面集成到FOLIO中。Share Family团队的Andrea Gazzarini和WOLFcon 2023的Index Data的Sebastian Hammer提出了一个通过FOLIO进行ILS/LSP交互的可能模型,以在相关数据社区内讨论如何寻求这种联系。

  • 关于与规范系统整合,正在调查几个数据来源,在某些情况下,已经完成了初步整合步骤:

-LD4P提问规范(Questioning Authority)查询工具;

-用于相互丰富实体ID的Wikidata(最初的规范由SVDE工作组制定);

-用于相互丰富实体ID的ISNI(初始规范由SVDE工作组制定)。

UNIMARC-BIBFRAME转换

SHARE目录倡议已经完成了UNIMARC-BIBFRAME直接映射和转换的工作(没有通过MARC的中间步骤),并将通过将得到丰富和记录的Wikibase实例与关联数据社区共享这项工作https://unimarc2bibframe.wikibase.cloud/2024/1/5内容为空

非拉丁文字丰富LOD平台

  • 2024年国立台湾大学图书馆将加入Share Family,由国立台湾大学图书馆提供的数据将由LD4P非拉丁文字资料亲和小组进行测试;
  • 正在使用一个支持阿拉伯文字的测试门户进行实验

法国图书馆界的关联数据之路(BnF vs Abes)

2023年9月召开的欧洲BIBFRAME研讨会,相关/社区报告(非BIBFRAME应用)只有一个,关于法国和国际图书馆的两种不同的关联数据路径,介绍6月完成的一项研究,由法国高等教育书目机构(Abes)委托一家咨询公司所做:

走向关联数据之路 En route to Linked Data: A study for Abes / Maurits van der Graaf (Pleiade Management & Consultancy). 8s.

会议PPT仅8张,是一个很好的概述。概言之,在书目向关联数据的转换上,法国与国际路线不同,格式不采用BIBFRAME,编目规则不采用原RDA/新RDA,而是使用RDA-FR(法国版RDA)。

法国的书目转换(Tb, Transition bibliographique)由法国国家图书馆(BnF)和法国高等教育书目机构(Abes)共同推动。在格式上,两家有所不同 :

  • BnF是所有非高等教育图书馆的书目机构,内部格式Intermarc(正开发新一代Intermarc-NG),交换格式Unimarc;
  • Abes是所有高等教育图书馆的书目机构、有200多个高校图书馆参与,管理共享编目系统SUDOC,交换格式Unimarc(及Marc21),准备升级到实体关系的UNIMARC-ER。

所介绍的研究报告共57页,有5页英文摘要:

书目转换对高等教育图书馆的实际影响 LES IMPLICATIONS PRATIQUES DE LA TRANSITION BIBLIOGRAPHIQUE POUR LES BIBLIOTHÈQUES D’ESR / Maurits van der Graaf; Pleiade Management et Consultancy. 27 juin 2023.

报告研究对三方面代表进行了访谈:国际图书馆和国际图书馆组织(关于RDA),图书馆管理系统供应商、图书供应商和出版商,法国图书馆代表。有美国国会图书馆(LC)、瑞典Libris XL、芬兰Melinda两个共享编目系统(后者开发中)、Share-VDE、OCLC/WorldCat与BIBFRAME/关联数据相关的介绍。

有关Abes实施书目转换的时间,文中称:Sudoc的准备阶段将持续4至6年,各校图书馆的转换阶段可能持续8至12年。这表明法国高等教育部门的横向转型可能在2040年左右完成。

不久前法国的书目战略委员会(CSB)给出了执行时间表。可参见:

另可回顾十年前的法国看法及其发布的关联开放数据:

国际标准内容代码(ISCC)

国际标准内容代码(ISCC),是针对数字内容(媒体文件和网页以及其部分)的细粒度的唯一标识符。任何人都可不经许可、免费为属于或不属于自己的数字内容创建ISCC。

作为新的ISO标准草案,ISCC于2021年10月立项,目前正在审查与征求意见阶段(30.20):

ISO/CD 24138.2 Information and documentation — International Standard Content Code

本文件规定了国际标准内容代码(ISCC)的语法和结构,作为数字资产的识别系统(包括全媒体领域的文本、图像、音频、视频或其他内容的编码)。它还描述了ISCC元数据以及ISCC与其他方案(如ISO/TC 46/SC 9定义的方案)的结合使用。ISCC适用于特定的数字资产,是使用本文档中的算法和规则从多个散列构建的数据描述符。组织、个人和机器可以为多种数字资产生成ISCC,并将其用于识别和管理这些资产。ISCC的生成或使用本身不会对所标识内容的作者或所有权作出任何声明或声明。

ISCC网站(https://iscc.codes/)有详细资料。“本文档的第一个版本来自内容区块链项目的原型项目,并获得了谷歌数字新闻计划(DNI)的资助”。

与以往那些“标准号”由权威机构赋予不同,ISCC不必手动分配,是根据数字内容本身、由公开的算法计算生成,是去中心化、免费、开源和透明的。ISCC标识符甚至可以离线生成,也不要求注册中心。

很自然会有疑问:如何经由ISCC标识符,到达数字内容?数字内容(如网页)有变化,怎么知道对应的版本?“当ISCC代码需要全球唯一、可公开发现、可解析、拥有或认证时,就需要进行ISCC注册”。ISCC专为基于区块链的注册而设计,任何人都可以做自己的注册中心。

ISCC代码为复合标识符,由4段代码组成:

  • 元代码 Meta-ID
  • 内容代码 Conten-ID
  • 数据代码 Data-ID
  • 实例代码 Instance-ID

每段13字符,共52字符;也可用-分隔,共55字符。前置ISCC作为标识。各段代码均以C起始,前2位含意:元代码CC内容代码:文本CT(其他媒体类型略),数据代码CD实例代码CR。如:

ISCC: CCDhJSBP6E1Gy-CTj6HAYRavnph-CD2Sd11rt7yLE-CRj3tVexKA1YX

上述4段设计的基点是,ISCC认为数字媒体识别从抽象到具体有6层,分别是:

  • 第1层抽象创作(Abstract Creation)【Creation可比拟FRBR/LRM的“作品”,对应第1段“元代码”。以元数据作为代表,实际生成时基本上只取题名,不用创作者、理由是具有一致性,不考虑Meta-ID的唯一性】
  • 第2层语义场(Semantic Field)【作品的主题,ISCC代码不采用】
  • 第3层–通用表现形式(Generic Manifestation)【Manifestation可比拟FRBR/LRM的“内容表达”,对应第2段“内容代码”。称“将一组不同的版本与同一内容的更正、修订、编辑、更新、个性化、不同格式编码或数据压缩捆绑在一个分组标识符下”,“这样的过程预计不会产生总是符合人类对边界确切位置的期望的直观结果”。以为类似编目中实体边界问题,看举例似乎只是相同内容的不同格式文件,如 PDF、MS-word 或 EPUB 文件,或 JPEG 和 PNG 文件等,有相同的Content-ID】
  • 第4层–媒体特定表现形式(Media Specific Manifestation)【对应第3段“数据代码”】
  • 第5层精确表示(Exact Representation)【Representation可比拟FRBR/LRM的“载体表现”,对应第4段“实例代码”】
  • 第6层-单独副本#(Individual Copy)【Copy可比拟FRBR/LRM的“单件”。ISCC代码不采用,讨论到“虽然物理对象永远只能有一个完全相同的单独副本,但数字对象的“单独副本”总是可以有无穷无尽的复制品”】

试用ISCC

ISCC有代码生成的演示网站(https://iscc.coblo.net/),试着为自己的博客、博文生成ISCC。

  • 博客网站https://catwizard.net首次生成ISCC,元数据Title识别为:编目精灵iii 曾经的编目员继续网络闲游(2023-03-04 15:49:12)
  • CCDhJSBP6E1Gy – CTAAyUJ5WiJYC – CDvBVRRxEEdWz – CRvzPL74HRnsN
  • 数天后有博文更新,再次生成,Meta-ID未变,其余3个ID变化(2023-03-13 10:44:49)
  • CCDhJSBP6E1Gy – CTj6HAYRavnph – CD2Sd11rt7yLE – CRj3tVexKA1YX
  • 为单篇博文“探访巩义北宋八陵”(https://catwizard.net/posts/20230312105820.html)生成JSCC,元数据Title识别为:编目精灵iii。4段ID均变化(2023-03-14 10:05:33)
  • CCgMkXL4KMfe9 – CThibYsrhRMVF – CDvYjVDMSxuPv – CRMLDE33fc6pF
  • 相同博文的微信版(https://mp.weixin.qq.com/s/4mP126l2lDRYmOyhhxChrA),元数据Title识别为:探访巩义北宋八陵。文字基本相同,但增加了很多图片,4段ID无一相同或相近,说好的可以“帮助识别剽窃”?(2023-03-13 11:17:01)
  • CCbzDNxrtF8AA – CT9eAjcLmYRv5 – CDH7ZSWNDq9h6 – CR2ecyY451pKL
  • 最奇怪的是,次日为微信版再次生成ISCC,后2段居然变了(2023-03-14 10:10:48)
  • CCbzDNxrtF8AA – CT9eAjcLmYRv5 – CDvHX8Heqa6Nv – CRFmRmnEb3cHd
  • 本文写到最后,再生成一次,又变了(2023-03-14 16:16:15)
  • CCbzDNxrtF8AA – CT9eAjcLmYRv5 – CDvmC3T1BSSSn – CRZzctSKT9PJE

博文的没变,看来只是与微信有关,或许微信会不时改变网页(图文显示不变)。对内容,是不是只看ISCC的第2段代码就可以了?