JCricket实体编辑器

2023年欧洲BIBFRAME研讨会(BIBFRAME Workshop in Europe 2023)上,Share-VDE(以下简称SVDE)有2个报告,其一介绍Share-VDE本体(可参见博文:Share-VDE本体:BIBFRAME扩展 ),另一介绍其在生产方面的进展,后半部分演示新推出的实体编辑器JCricket,即规范数据编辑工具。

JCricket用于人工编辑SVDE知识库中的实体(包括其属性、关系、链接等),可用操作包括:

  • 编辑:属性添加、升级、删除
  • 合并:多个棱镜[实体]合并为一个。如“Mark Twain”[笔名]和“Samuel Clemens”[原名]
  • 分拆:一个棱镜[实体]分拆为多个。当一个棱镜错误地包含属于多个实体的信息。如“Wallace David”和“David Wallace”

JCricket是什么

  • 一个关联数据实体/规范编辑器;
  • 适用于在Share家族(svde.orgpcc-lod.orgnatbib-lod.org)的所有租户内创建的关联数据实体;
  • 一个手动应用程序,用于管理CKB集群知识库中实体的属性(特性、关系和链接);
  • 一个跨成员机构共享的协作工具;
  • 可以成为关联开放数据中实体共享的新工具。

JCricket不是什么

  • 不是传统的书目数据编辑器;
  • 不是原始编目工具;
  • 不与Sinopia或Marva对比;
  • 不影响成员馆系统中的原始数据(除非图书馆希望在SVDE及其系统中使用特殊API进行实体更新)

附相关/专有名词:

  • JCricket(曾称 J. Cricket):SVDE的实体编辑器
  • Sapientia(智慧):Share-VDE的知识库(CKB, Cluster Knowledge Base)
  • Tenant(租户):代表一组为同一知识库做出贡献的机构。
  • Provenance(出处):为CKB贡献的具体机构(图书馆)
  • Prism(棱镜):CKB中的实体,(如同多棱镜) 每个面(face)代表数据来自一个给定出处。

来自:

增强MARC书目记录中元数据(SCA工作组最终报告)

最近十多年,针对关联数据在图书馆中的应用,MARC21标准经过多轮扫描更新,其中最重要的变化就是在越来越多的字段中加入控制子字段、记录可解引到RDF的URI,用于增强MARC记录:

  • 2016年重新描述$0规范记录控制号或标准号,取消可解引URI的前缀代码(URI)(其他号码仍需前缀);
  • 2017年新增$1真实世界对象URI。

字段加入URI子字段$0$1,从检索点及代码开始,现在进入到描述性字段。近日合作编目项目(PCC)上线新的报告:

《增强MARC书目记录中元数据和实践的SCA(应用常务委员会)工作组最终报告》Final Report of the SCA Task Group on Enhancing Metadata and Practices in MARC Bibliographic Records. 2023-1-17

报告2023-1-17完成,2023-5-11政策委员会(PoCo)评审,2023-8-31批准了报告建议的10个字段中的8个,预计将体现在MARC标准的后续更新中。

报告审查了82个字段,在非结构化文本中识别出实体,对其中10个描述性字段提出建议。建议包括增加$0和$1子字段,以及对当前政策(即现行编目指导文件)的修订。当前政策引用的现行编目指导文件主要是:

  • 原RDA和官方RDA,主要讨论其中的LC-PCC PS(政策声明)
  • MGD(元数据指导文档)
  • 341字段还引用3种OLAC最佳实践:OLAC Best Practices for Cataloging Objects Using RDA and MARC21,OLAC Best Practices for Cataloging Streaming Media,OLAC Best Practices for Cataloging DVD-Video and Blu-Ray Discs
  • 506和540字段还引用:Provider Neutral E-Resource Guidelines

附录A对10个描述性字段的建议,概要如下(其中7个添加$0$1,5个得到批准/其中1个MARC标准已更新)

  • 024 – Other Standard Identifier (R) 其他标准标识符【添加$0$1,更新GMD】
  • 210 – Abbreviated Title (R) 缩略题名【添加$0$1,创建PS+更新MGD(建议未批准:PCC CONSER试点小组或美国ISSN中心不建议实施210字段)】
  • 300 – Physical Description (R) 物理描述【更新PS+创建MGD】
  • 341 – Accessibility Content (R) 可访问性/辅助内容【添加$0$1,添加$2+创建无障碍词表+来源代码,创建PS+更新MGD】
  • 504 – Bibliography, Etc. Note (R) 书目等附注【推荐使用353字段/辅助内容特征,更改PS+MGD/使用受控词表=补充内容代码】
  • 506 – Restrictions On Access Note (R) 访问限制附注【添加$0$1,更新术语来源代码,创建PS+更新MGD/鼓励使用856$l(建议未批准:出于相同目的已经存在856$l)】
  • 536 – Funding Information Note (R) 资助信息附注【确定各种资助号是否有可用URI;710记录资助者】
  • 540 – Terms Governing Use And Reproduction Note (R) 管理使用和复制条款附注【添加$0$1,更新访问限制条款来源代码表,创建PS+更新MGD/使用856r(与506近似但被接受)
  • 586 – Awards Note (R) 奖项附注【添加$0$1,结构化/添加$c奖项类别$d奖项日期,创建PS+更新MGD】
  • 658 – Index Term–Curriculum Objective (R) 索引词—课程目标【添加$0$1(文中所引MARC讨论稿已批准/MARC标准2023-6-21已更新)】

工作组的8条原则:

  • 1.尊重并肯定先前PCC工作组关于描述性字段的建议。
  • 2.在考虑是否以及如何将描述性字段适用于关联数据时,注意编目员时间和资源的投资回报。
  • 3.在评估拟议的实践变更时,考虑回溯协调(reconciliation)的必要性,以及此类协调所需的资源。
  • 4.评估MARC字段是否明确地传达了单个对象引用。
  • 5.请记住,并非所有URL/URI都可以用于关联数据;关联数据需要一个可以解引到RDF中的URI。
  • 6.保持在工作组根据职责确定的范围内。
  • 7.具有明确标识的词表的字段值可以机械地转换为关联数据,而不必要求编目员在MARC数据中嵌入子字段$0或$1 URI。
  • 8.当数据在记录中其他地方的机器可读字段中复制时,人类可读字段不需要适应关联数据,这些字段可以更容易地用于关联数据。

可以看到对工作效率的重视。而附录B(增强现有描述性字段的工具和策略)更是针对以上每个字段,提出各自使用软件工具识别或批量更新的建议。

参见:在MARC中使用URI:URI指导小组最终报告(2023-8-29)

在MARC中记录URI的核心词表(《NACO 024最佳实践指引》)

合作编目项目(PCC)在2019-2021年开展了两项以MARC记录URI的试验,意在由名称的规范控制走向实体的身份管理。在2023年3月的“URI指导小组最终报告”中,列出了正式开展此项工作的6个核心文档,其中一个核心文档曾在2018年博文中写过其早期版本:[5] Formulating and Obtaining URIs: A Guide to Commonly Used 由Vocabularies and Reference Sources. (2020)。参见:

本文围绕另一个核心文档的最新版本,关于在LC名称规范档(NACO)的MARC 024字段中记录URI的指引:[2] NACO 024 Best Practices Guidelines. (2019-2023)

024字段:其他标准标识符,除ISBN、ISSN等以外的标准号或代码或URI(书目与规范格式相同)

鉴于一条记录中出现过多024字段对用户与本地系统维护造成的麻烦,提出本最佳实践。简单地说,就是规定一般限制每条规范记录最多5个024字段。为此提出“核心词表”,当已有5个或更多时,只有出自“核心词表”的才能添加。

本指引中的核心词表,以表格示例方式,分别列举不同类型实体的来源。概要如下:

  • 个人名称:Wikidata, ISNI, ORCID, VIAF, ULAN, WorldCat Entities
  • 家族名称:VIAF, Wikidata, CERL, ULAN
  • 团体名称:Wikidata, ISNI, VIAF
  • 地理名称:Wikidata, GeoNames, TGN, WorldCat Entities
  • 作品和内容表达:Wikidata, VIAF, MusicBrainz, BBC Things, DBpedia, FAST, WorldCat Entities

虽然这是个要求遵守的政策文件,但此“核心”词表不是强制性的(并且会维护更新)。可以根据机构与馆藏的需要使用任何词表,包括前述[5]中所列词表,需要注意只有前述5个024字段的数量限制。

指引还指出,OCLC Connexion(编目软件)中的Authority Toolkit可用于搜索外部词表,并根据这些词表正确构建URI。