做数字(化)项目,都会遇到选择元数据的问题。在内容适用的若干元数据格式中,如何作出评价并选择确定所用的格式?
美国图书馆协会(ALA)核心元数据标准委员会正在制订《元数据模式评估框架》,其初稿现公开征求意见,2022-7-18截止。
本框架确定了9个可用于评估元数据模式的准则,每个准则还包含4个级别,用于评估给定模式满足从最低(例如,最低限度可接受)到最高(增值或最复杂)的程度。标准草案文本及反馈表单均在Google Drive,详见:
Core News: Core Metadata Standards Committee Seeks Feedback on Assessment Framework / By Jenny LevineIn. 2022-6-22
元数据模式评估框架 Metadata Schema Assessment Framework / Core Metadata Standards Committee
本框架主要基于 Pipino 等2002年在“数据质量评估”(Data Quality Assessment)中提出的15个维度,包括:可访问性、适当数量的数据、可信性、完整性、简洁的表示、易于操作、无错误、互操作性、客观性、相关性、声誉、安全性、及时性、可理解性和增值。经合并、改进或省略,形成本文件的9个准则:
- 适用性(Applicability):元数据模式适用于手头任务的程度
- 完整性(Completeness):元数据模式在多大程度上具有足够的广度和深度来满足模式的既定目的
- 一致的表示(Consistent Representation):统一表示元数据模式的程度
- 易于访问(Ease of Access):元数据模式和相关信息可靠可用或可轻松快速检索的程度
- 互操作性(Interoperability):两个或多个系统或组件交换有关事物的数据的能力,并以与数据创建者的解释一致的方式解释已交换的数据
- 维护(Maintenance):支持模式的连续性、审查和适应性的维持活动水平
- 采用率(Rate of Adoption):元数据模式的使用程度
- 可理解性(Understandability):元数据具有使其能够被用户阅读和解释的属性的程度,并在特定的使用环境中以适当的语言、符号和单位表示
- 透明度、偏见和参与度(Transparency, Bias, & Engagement):元数据模式承认和记录可能的偏见的程度
为对上述9个准则进行测度,本框架基于2019年国家数字监护联盟(National Digital Stewardship Alliance)的数字保存级别 2.0 版(Levels of Digital Preservation Version)模型,确定衡量每个准则的从低到高的4个适用级别。以下仅以“可理解性”为例说明:
- 级别I,要求:[1]在稳定/静态的在线位置以活生生的人类语言提供人类可读的文档。
- 级别II,在上述1外,还有2个要求:[2]该文档包括并定义了所有可接受的内容类型(即概念、元素、关系、受控词汇术语等)。[3]定义是非自引用的,并且在整个文档中使用一致的术语。
- 级别III,在上述1-3外,还有1个要求:[4]文档的结构和编写方式对新手和高级用户都很有用。
- 级别IV,在上述2-4之外,对1增加语言要求:人类可读的文档以多种活生生的人类语言提供并积极维护,包括非欧洲和非拉丁字符语言。
注:不知道是不是为了强调“政治正确”,9个准则中有“透明度、偏见和参与度”,但附上了特别说明:本节涉及数据元素中使用的值,而不是模式本身,因此在本文档中没有位置。 满足此处规定的其他准则(例如完整性、一致性、互操作性等)的模式将“符合目的”,因此将没有偏见。