《元数据模式评估框架》征求意见

做数字(化)项目,都会遇到选择元数据的问题。在内容适用的若干元数据格式中,如何作出评价并选择确定所用的格式?

美国图书馆协会(ALA)核心元数据标准委员会正在制订《元数据模式评估框架》,其初稿现公开征求意见,2022-7-18截止。

本框架确定了9个可用于评估元数据模式的准则,每个准则还包含4个级别,用于评估给定模式满足从最低(例如,最低限度可接受)到最高(增值或最复杂)的程度。标准草案文本及反馈表单均在Google Drive,详见:

Core News: Core Metadata Standards Committee Seeks Feedback on Assessment Framework / By Jenny LevineIn. 2022-6-22

元数据模式评估框架 Metadata Schema Assessment Framework / Core Metadata Standards Committee

本框架主要基于 Pipino 等2002年在“数据质量评估”(Data Quality Assessment)中提出的15个维度,包括:可访问性、适当数量的数据、可信性、完整性、简洁的表示、易于操作、无错误、互操作性、客观性、相关性、声誉、安全性、及时性、可理解性和增值。经合并、改进或省略,形成本文件的9个准则:

  • 适用性(Applicability):元数据模式适用于手头任务的程度
  • 完整性(Completeness):元数据模式在多大程度上具有足够的广度和深度来满足模式的既定目的
  • 一致的表示(Consistent Representation):统一表示元数据模式的程度
  • 易于访问(Ease of Access):元数据模式和相关信息可靠可用或可轻松快速检索的程度
  • 互操作性(Interoperability):两个或多个系统或组件交换有关事物的数据的能力,并以与数据创建者的解释一致的方式解释已交换的数据
  • 维护(Maintenance):支持模式的连续性、审查和适应性的维持活动水平
  • 采用率(Rate of Adoption):元数据模式的使用程度
  • 可理解性(Understandability):元数据具有使其能够被用户阅读和解释的属性的程度,并在特定的使用环境中以适当的语言、符号和单位表示
  • 透明度、偏见和参与度(Transparency, Bias, & Engagement):元数据模式承认和记录可能的偏见的程度

为对上述9个准则进行测度,本框架基于2019年国家数字监护联盟(National Digital Stewardship Alliance)数字保存级别 2.0 版(Levels of Digital Preservation Version)模型,确定衡量每个准则的从低到高的4个适用级别。以下仅以“可理解性”为例说明:

  • 级别I,要求:[1]在稳定/静态的在线位置以活生生的人类语言提供人类可读的文档。
  • 级别II,在上述1外,还有2个要求:[2]该文档包括并定义了所有可接受的内容类型(即概念、元素、关系、受控词汇术语等)。[3]定义是非自引用的,并且在整个文档中使用一致的术语。
  • 级别III,在上述1-3外,还有1个要求:[4]文档的结构和编写方式对新手和高级用户都很有用。
  • 级别IV,在上述2-4之外,对1增加语言要求:人类可读的文档以多种活生生的人类语言提供并积极维护,包括非欧洲和非拉丁字符语言。

注:不知道是不是为了强调“政治正确”,9个准则中有“透明度、偏见和参与度”,但附上了特别说明:本节涉及数据元素中使用的值,而不是模式本身,因此在本文档中没有位置。 满足此处规定的其他准则(例如完整性、一致性、互操作性等)的模式将“符合目的”,因此将没有偏见。

元数据平台MetaDoor引发OCLC起诉科睿唯安

十多年前,图书馆自动化系统公司Innovative Interface公司(III)开始提供编目服务,名为SkyRiver,在2012年时就曾因WorldCat书目数据与OCLC有过诉讼。经过这些年的并购(III -> 艾利贝斯 Ex Libris (Proquest) -> 科睿唯安 Clarivate),SkyRiver现属科睿唯安,用户仍在缓慢增长。

如今科睿唯安旗下艾利贝斯正开发“元数据平台MetaDoor”,尚未推出又遭OCLC诉讼,指控其盗用WorldCat记录。相关介绍可见微信公众号“图情那些事儿”:

Marshall Breeding的《图书馆技术通讯》(Library Technology Newsletter Vol 1 No 05)上月也推出2篇相关文章,其一关于本次诉讼(OCLC sues Clarivate over MetaDoor and its use of WorldCat records);其二介绍MetaDoor(MetaDoor: a new bibliographic service for libraries to be offered by Ex Libris)。

从“MetaDoor:艾利贝斯为图书馆提供的新书目服务”介绍来看,这个“元数据平台”不是联合目录或者书目记录库,而是一个书目索引中心库,作个不恰当的类比,不是全文库而是文摘索引库。“MetaDoor将作为点对点或基于社区的记录交换服务运行。该平台对参与机构的书目记录进行索引,并为每条记录分配代表其完整性和质量的分值。这些索引和算法构成书目生态系统的基础设施,可以通过网络界面访问或集成在 Alma 编目环境中。艾利贝斯将提供 API 以使图书馆能够开发自定义工具,其他供应商将 MetaDoor 集成到他们的产品中”。

其数据基础将是目前使用其Alma系统的2,322家图书馆,总计有12亿条书目记录、约2.75亿唯一品种。为规避版权风险,其并不保存书目记录,使用者由索引查到结果后(通常会有多个),可根据其分值等选择直接从某个参与图书馆下载记录。使用Alma的多为大图书馆,大量馆藏的书目记录来自WorldCat。对WorldCat数据的合理使用问题,多年前就有争论。对OCLC来说,通过此平台使用,还有可能丧失很多用户或潜在用户。

关于SkyRiver,参见:

相关并购,参见:

LC即将实施BIBFRAME(2022年BIBFRAME更新论坛)

美国国会图书馆(LC)开发BIBFRAME,如果从2011年“书目框架转变行动”开始算,已超过十年。

今年ALA年会期间,LC照例举办BIBFRAME更新论坛。此次论坛,可以认为宣告LC即将正式实施BIBFRAME。

先前历次BIBFRAME更新论坛,除作为主持方的LC外,还会有来自厂商和高校等机构的多个报告。此次论坛,报告人除了1位都来自LC,而这一位报告针对的是OCLC使用LC的BIBFRAME数据。

Library of Congress June 2022 BIBFRAME Update Forum(Zoom网会,2022-6-27,1:00 PM ET – 2:00 PM EDTMeeting ID: 160 327 6570,Passcode: 576692)

“随着美国国会图书馆(LC)BIBFRAME 100的目标日期将于今年秋季到来,当LC的大多数编目人员将在LC的BIBFRAME系统中创建描述,并通过转换为MARC创建MARC记录时,我们希望利用这个更新论坛来突出可能影响LC数据用户的一些发展。Beacher Wiggins将首先介绍LC采购和书目访问部的现状和期望。LC专家将深入非拉丁领域,讨论更多的文字、多少音译、音译表审查、Marva(BIBFRAME编辑器)中的非拉丁文字输入以及可共享的音译实用程序。LC将报告通过新的发行软件来共享BIBFRAME数据,包括作品、实例、hub、名称、主题和许多标准列表。会议结束时,OCLC将提交一份报告,介绍他们对使用LC的BIBFRAME记录和/或由BIBFRAME数据创建的MARC记录的初步想法。”

【本人总结的几个关键点:BIBFRAME 100;BIBFRAME转换创建MARC记录;Marva(LC的BIBFRAME编辑器);非拉丁文字输入及音译;BIBFRAME数据发行】

【报告一览(会后在BIBFRAME主页发布)】

  • Introduction / Sally McCallum, Library of Congress
  • BIBFRAME 100 Expectations / Beacher Wiggins, Library of Congress
  • Non-Latin Scripts in LC’s BIBFRAME / Paul Frank and Jessalyn Zoom, Library of Congress
  • Transliteration Utilities / Matt Miller, Library of Congress
  • LC’s BIBFRAME Data Distribution / Kevin Ford, Library of Congress
  • LC’s BIBFRAME Data in OCLC / Nathan Putnam, OCLC