Share-VDE在图书馆关联开放数据中的作用

【Share-VDE的前世今生】

Share-VDE始于2016年。

2017年,意大利@CULT公司在BIBFRAME 2.0实施注册(BIBFRAME 2.0 Implementation Register)中添加了其开发的7所大学的目录门户:SHARE — Scholarly Heritage and Access to Research,包含200万书目记录、34万规范记录,采用BIBFRAME词表的关联数据发布。以FRBR化目录界面,呈现作者的增强信息。参见:BFRAME 2.0实施注册新增项目(附:意大利SHARE目录)(2017-7-25)

2018年BIBFRAME更新论坛,Casalini Libri(书目和规范数据提供者,PCC成员)、@Cult(ILS、发现工具、语义网解决方案厂商)介绍其与16个北美研究图书馆合作的Share-VDE项目(https://share-vde.org),用URI强化MARC记录。目录界面与SHARE相同,只是收录内容不同吧。参见:2018年BIBFRAME更新论坛(2018-11-14)

2019年初BIBFRAME更新论坛,斯坦福大学介绍LD4P2项目使用SHARE-VDE转换记录为BIBFRAME。参见:ALA 2019仲冬会议的BIBFRAME更新论坛(2019-2-17)

2020年LD4P3项目,Share-VDE作为托管编目环境,成为项目重要的协作者。LD4系列项目至此“闭环”,意在关联数据环境下创建一个完整周期的工作模型,进行图书馆元数据的创建、共享和重用。参见:关联数据编目走向现实——新项目LD4P3及LD4社区(2020-12-10)

2021年9月第5届欧洲BIBFRAME研讨会,公司介绍技术上重构的Share-VDE 2.0(https://svde.org/)。参见:2021欧洲BIBFRAME研讨会信息 (2021-10-17)

【Share-VDE声明】

与此同时,Share-VDE咨询委员发布了一个声明,描述该计划在图书馆关联开放数据的更广泛背景下的作用,内容包括SVDE概述、数据模型、LOD、PCC数据池、工具和发现(以下为谷歌翻译,仅少量人工干预,如链接数据->关联数据)

Share-VDE在图书馆关联开放数据中的作用(Share-VDE’s Role in Library Linked Open Data

概述

Share-VDE(虚拟发现环境)项目自 2016 年最初的 Share-VDE 原型以来一直是图书馆关联开放数据和 BIBFRAME 使用的领导者。 通过汇集来自欧洲和北美许多图书馆的数据,Share-VDE在异构环境中展示了 BIBFRAME 的强大功能。 Share-VDE 植根于美国国会图书馆开发的 BIBFRAME 数据模型,但扩展到来自许多图书馆的图书馆数据,显示了合作的力量。成员图书馆与 Casalini 和 @Cult 的开发团队合作,贡献了他们的数据、时间和资源来开发 Share-VDE。

数据模型

作为图书馆生态系统中的 BIBFRAME 节点,Share-VDE 提供丰富的数据,可与其他 BIBFRAME 节点互操作。 Share-VDE 将来自成员图书馆的 MARC 规范和书目数据汇集在一起,用权威实体对其进行丰富,并将数据聚类到 BIBFRAME 实体中。 Share-VDE 工作组详细审查了聚类,并扩展了 BIBFRAME 模型以满足现实世界的需求并反映参与图书馆的数据。数据模型的这种发展产生了 Share-VDE Opus(一种 bf:Work),它将所有相关内容表达组合或聚集在一起并代表原始/创造性作品,从而促进与 IFLA LRM 的互操作性。

关联的开放数据

Share-VDE 基础设施基于 LOD 平台,该平台旨在能够自动化创建和发布关联开放数据的过程,而不管数据源格式如何。 Sapientia 集群知识库在 RDF(因此作为关联开放数据)中可用,并可通过 SPARQL 端点和 API 查询访问。

PCC数据池

基于这项开发工作,Share-VDE 被 LD4P3 基金选中来创建 PCC 数据池。 Share-VDE 与 LD4P、OCLC 和 PCC 合作,将所有 BIBCO 和 Conser MARC 编目整合在一起。 Share-VDE 数据模型和聚类算法被应用于创建 PCC 质量 BIBFRAME 数据的开放池。 PCC 数据池将作为编目员使用 Sinopia 创建本地生产的 BIBFRAME 的可信数据源,以及任何用户都可以使用的关联开放数据。

工具

除了其他开发工作之外,Share-VDE 团队还在创建工具来处理数据。 Share-VDE 数据模型预计,在大量自动化实体集群中,某些集群或关系链接将不准确。 J.Cricket 编辑器提供了一种将直接用户专业知识应用于维护 Sapientia 集群知识库的方法。成员图书馆与开发团队也一直在探索和推荐外部数据源,以将其合并到为集群知识库提供数据的规范数据流中。此外,他们正在研究新的规范工具和服务,以与 BIBFRAME 模型保持一致并扩大规范数据的使用。

发现

最后,Share-VDE 带来了许多其他 BIBFRAME 项目所缺少的关键元素——发现。正如 Share-VDE 名称所示,Discovery 从一开始就是该项目的重点。 Share-VDE 发现基于 BIBFRAME,使用实体模型。与基于记录的目录不同,Share-VDE 侧重于作品和作者元素。这种新模型通过专注于原始作品而不是单个图书馆中的特定实例,避免了基于 MARC 的目录中存在明显重复记录的长期问题。这种方法超越了关联数据的丰富(例如数据卡),成为了一种新的发现方法。这是对 BIBFRAME 生态系统的一个巨大补充,展示了关联数据改善用户体验的力量。

总结

Share-VDE 是一个 BIBFRAME 节点,在新兴的书目生态系统中提供可与图书馆和其他 BIBFRAME 节点交换的权威数据。数据模型和工具是由一个强大的合作社区开发的。 Share-VDE 计划是该生态系统的领导者,并支持最终目标:促进丰富和结构化数据的重用,并为研究社区提供新一代获取知识的工具。

BIBFRAME本体2.1版发布(4层确认)

美国国会图书馆(LC)赶在BIBFRAME更新论坛于2021/6/29召开前,发布了BIBFRAME本体的2.1版(之前为2.0.1版),涉及50个类与属性的变化。美国国会图书馆网络开发与MARC标准办公室主任Sally McCallum在BIBFRAME邮件组中说明,其中绝大多数来自社区中一直在使用Bibframe词表和模型的实施者,并表示感谢。 见:BIBFRAME Ontology Updated / McCallum, Sally (2021-6-24)

LC网站上有修订后的本体:http://id.loc.gov/ontologies/bibframe。主要讨论场所则在GitHub:https://github.com/lcnetdev/bibframe-ontology

LD4社区应该是所指的重要实施者,BIBFRAME本体中有4个属性(awards、custodialHistory、dimensions、fontSize)在编辑附注中注明“请参阅 ARM Ontology(艺术与珍本资料本体) 以了解更详细地对此信息建模的策略”。【参见:BIBFRAME扩展:bibliotek-o(及ArtFrame和RareMat)(2018-5-1)】

Kevin Ford昨天在BIBFRAME的GitHub中发了上百条评论、包括关闭问题,涉及对建议的处理结果,如在BF中声明FOAF命名空间等,特别有一条解释新增的Hub类。之前在某PPT已经见过Hub,此评论可认为是官方解释。概言之,Hub为作品的子类,对应于RDA作品。也就是说,BIBFRAME对应于LRM/RDA的资源四层结构为:Hub—BF作品—实例—单件

Proposal: New class – bf:Hub #75

bf:Hub 的实验始于三年多前(在 LC),并于2019年6月首次公开实例化[用于实例?]。Hub被定义为作品的子类,是抽象资源,充当两个作品之间的桥梁。通过这种方式,它们起到聚合和配置资源的作用。例如,它们使收集马克吐温的《汤姆·索耶历险记》(Tom Sawyer)的所有西班牙语翻译成为可能,或者捕获包含弗朗西斯科·塔雷加(Francisco Tarrega[西班牙吉他演奏家、作曲家])的《随想曲》(Capricho árabe)的其他BF作品。在LC的实验中,Hub作为聚合器执行三个功能:作为主题、作为相关作品以及作为 RDA 意义上的作品。Hubs,作为BF作品,可以作为主题来描述其他作品。

参见:Hub:BIBFRAME模型下的超级作品(2020-6-28)

—— 附:BIBFRAME 2.1的变化 ——

根据Change Notes总结(红字,日期2021-06-09),共86处修改,有些属性涉及多处修改。

一、新增22个类/属性,大致可分成两部分

(一)类(7个)及相应属性(6个)

  • AccessionNumber(登录号,标识符Identifier子类)
  • CollectionArrangement(资料信息的组织)collectionArrangement(资源集合的组织安排)/ collectionArrangementOf,collectionOrganization(资源分成较小单元的方式)
  • Eidr(Entertainment Identifier Registry,标识符Identifier子类)
  • Ensemble(合奏,新增上位类:有子类MusicEnsemble)
  • Hub(中转站/枢纽=桥接两个作品的抽象资源,作品Work子类)
  • Material(材料=资源的物质或组成,新增上位类:有子类BaseMaterial、AppliedMaterial)material(有子属性baseMaterial、appliedMaterial)/ materialOf(有子属性baseMaterialOf、appliedMaterialOf)
  • PubFrequency(资源的出版频率)pubFrequency

(二)原有属性的互逆属性(9个)

adminMetadataFor,agentOf,appliedMaterialOf,arrangementOf,baseMaterialOf,contributionOf,noteFor,subjectOf,titleOf

二、其他修改

  • 1、因新增上位类导致的变化(AppliedMaterial、BaseMaterial、MusicEnsemble;appliedMaterial、baseMaterial、ensemble、ensembleType)
  • 2、修改标签(MovementNotation、MusicNotation、Script、TactileNotation、mount)
  • 3、修改定义(Arrangement、Event、GenreForm、Mount、Urn;arrangement、ensemble、expressionOf、hasExpression、originDate、originPlace、relatedTo)
  • 4、修改/增加附注(Classification、Identifier、Note;awards、custodialHistory、dimensions、fontSize)
  • 5、修改Comment(hasPart、partOf:也用于Event)
  • 6、修改上位属性(otherEdition)
  • 【以下定义域/值域的修改基本上是为减少对使用的限制】
  • 7、扩大定义域/用于(appliedMaterial、assigner、baseMaterial、issuedWith、otherPhysicalFormat、subject、title)
  • 8、移除定义域/用于所有资源(electronicLocator、firstIssue、frequency、geographicCoverage、lastIssue)
  • 9、扩大值域/期望值(colorContent、extent)
  • 10、移除值域/期望值为所有资源或取值(acquisitionSource、agent、appliedMaterial、assigner、baseMaterial、derivedFrom、descriptionModifier、genreForm、grantingInstitution、heldBy、issuedWith、originPlace、place、source)
  • 11、修改值域(hierarchicalLevel、pattern)

关联数据编目走向现实——新项目LD4P3及LD4社区

梅隆基金资助的“图书馆关联数据”LD4系列项目始于2014年,每2年1-2个项目。2020年中,新项目LD4P3“闭环”得到批准(2020/7/1-2022/6/30,250万美元)。历经多年探索、关联数据编目似乎终于开始进入实际应用阶段。

项目名称“闭环”,指创建一个完整周期的工作模型,以进行图书馆元数据的创建、共享和重用。本项目伙伴(partner)即共同申请者为斯坦福、康奈尔和爱荷华大学图情学院,协作方包括Share-VDE(意大利厂商的托管编目环境)、美国国会图书馆(LC)、合作编目计划(PCC)以及OCLC。此外还有合伙人(cohort),即在LD4P2时已参加从MARC到关联数据编目的PCC成员馆。

主管此项目的斯坦福大学技术与访问服务副馆长Philip Schreur在新闻中称此项目的目的是“使图书馆资源超出图书馆目录的可访问性,并利用来自更广泛网络的相关信息来增强基于图书馆的发现,以及从现有但以前未链接的数据中创建新知识”。

七个主要目标:

  • (1)完成能够与多种环境(例如FOLIO)进行交互的开源关联数据编辑器【对Sinopia的功能要求1】
  • (2)扩大查问规范(QA)范围,以在各种传统(例如LCNAF)和非传统(例如Wikidata、Discogs)规范源中为规范和实体查找以及数据导入提供一流的支持【对QA的要求】
  • (3)通过将QA与OCLC提议的“实体主干”相集成来扩展实体管理【参见:OCLC获梅隆基金资助开发实体管理基础设施(2020-1-11)】
  • (4)以RDF创建所有PCC原始编目的连续馈送池,该池可在世界范围内免费开放使用【PCC数据池】
  • (5)扩大Sinopia与其他数据源(ILS、发现系统、PCC数据池和其他外部数据源)基于API的集成的能力,使RDF环境中的数据流闭环【对Sinopia的功能要求2】
  • (6)将PCC合伙人的管理和培训从LD4P转移到PCC【从项目试验走向实际应用?】
  • (7)可持续发展计划和建模,包括确定单个组件以及LD4P3主要利益相关者在业务、成员资格、服务、软件、数据和运营方面的几种长期选择

七个目标通过五个工作包实现:

  • (WP1)扩大Sinopia环境
  • (WP2)集成并完成生产就绪的关联数据规范支持服务(QA)
  • (WP3)在Blacklight中实现发现增强功能【那个历史悠久的?Blacklight:佛吉尼亚大学的开源OPAC(2008-3-3)】
  • (WP4)通过创建PCC数据池和扩展PCC合伙人来扩展PCC社区的参与
  • (WP5)环境关键部分的可持续性和社区发展

日前LD4社区也宣布成立:ld4.io。“新的LD4社区向任何人开放,供其探索、学习和协作以提高意识和知识,鼓励采用并建立可互操作的标准、工具和服务的生态系统,以将关联开放数据和其他技术从理论付诸实践并规模化。”目前网站汇集LD4年会资料(始于2017)、维基、slack(即时沟通和团队协作)、邮件组(可申请加入发现、Wikidata、非拉丁文字资料3个组)、油管频道、Github等。

  • 社区宪章:LD4是一个共同努力以促进图书馆实践的社区。 我们专注于链接和使用Web上的数据来推进图书馆的使命、宗旨和目标。/ LD4社区的参与对任何人开放——个人或机构、 非营利组织、政府组织或商业组织。通过直接参与,并通过其各种渠道、项目和活动,LD4聚集全球成千上万的个人。
  • 愿景:世界用图书馆数据丰富,图书馆用世界数据丰富。
  • 使命:通过建立一个开放、多样化、可持续和图书馆主导的社区来推进图书馆实践。我们将共同探索、学习和协作,以提高认识和诀窍,鼓励采用,并建立可互操作的标准、工具和服务的生态系统,以便将关联开放数据和其他技术从理论大规模地应用于实践。

参考资料:

LD4系列项目网关 ld4l.org

  • 2014-2016: LD4L (Linked Data for Libraries)
  • 2016-2018: LD4L Labs
  • 2016-2018: LD4P (Linked Data for Production)
  • 2018-2020: LD4P2: Pathway to Implementation
  • 2020-2022: LD4P3: Closing the Loop