开放WEMI(openWEMI)词表发布

WEMI是作品(Work)、内容表达(Expression)、载体表现(Manifestation)和单件(Item)的首字母缩略词,出自1997年《书目记录的功能需求》(FRBR),由2017年《国际图联图书馆参考模型》(IFLA LRM)继承,是书目资源描述领域著名的层次模型。

以曹雪芹的《红楼梦》为例说明之。《红楼梦》本身是作品,120回本和80回本、印刷版和语音版等是不同的内容表达,各出版社《红楼梦》版本是不同的载体表现,一套印刷版《红楼梦》是单件。如此标记的结果是,原本关系不明确的各种《红楼梦》书目记录,相互间有了明确的层级关系,在书目数据呈现时可以进行多样化的聚合,有助于用户选择适合自己需求的版本。

WEMI模型不仅适合于描述图书,对其他非物质文化资源也同样适用。比如罗丹的雕塑《思想者》,有多个不同的翻模版,可视为不同的内容表达,当然它同时也是载体表现和单件,对《思想者》拍摄形成的照片则是不同的内容表达/载体表现,如此等等。openWEMI就是希望把WEMI模型扩展到图书馆领域之外。

2023年末,openWEMI发布草案。参见:开放WEMI(openWEMI)提案发布(2023-12-14) 

近日,正式词表发布:OpenWEMI vocabulary(https://ns.dublincore.org/openwemi/

OpenWEMI由都柏林核心元数据倡议(DCMI)支持,显然目标是如都柏林核心(Dublin Core, DC)一样、成为具有超出图书馆界影响力的通用模型。作为一种元模型,对于没有采用WEMI模型的各种元数据标准,可以使用OpenWEMI为需要描述的资源增加层次关系。

按其介绍:OpenWEMI是一个最小约束词表,用于使用作品、内容表达、载体表现、单件等概念描述创建的资源。

与去年提案相比,正式发布的OpenWEMI是一个很纯粹的WEMI模型,排除了责任实体及其属性,只含资源及其关系:

类5个:超级类Endeavor,4个子类即WEMI

属性15个:包括主要关系、共同关系和相关关系。

相关关系认定很宽松。共同关系则是FRBR没有的,指示两个资源表示或包含相同的 openWEMI 实体。

作为“最小约束词表”,主要关系与FRBR有所不同,不严格要求 W—E—M—I 环环相扣,可以省略中间层,如下图,可以W-E-I或W-M-I等(换言之也可以只分3个层次,因为有的领域很难分出4个层次)。下图出自openWEMI的GitHub主页(https://github.com/dcmi/openwemi,目前还是提案内容,但“主要关系”没有变化):

WEMI主要关系

元数据评估工具库

DLF Metadata Assessment Working Group — Tools

元数据评估工具库,收录元数据相关工具的信息,包括工具的使用和功能、支持的元数据标准以及工具本身的文档链接。

本工具库将收录的元数据工具分为7个类别:[1]创建、[2]编辑、[3]验证、[4]转换、[5]抽取/嵌入、[6]检索、[7]分析。类别起到过滤器的作用,方便使用者筛选有助于特定工作类别的工具。具有多种功能的工具入多个类别;同时也支持搜索查找。

从类别可知,并非限于“评估”本身。实际上要评估元数据,必然要对元数据进行各种预处理,因此“通常借助于脚本和其他自动化工具”以“更聪明地工作,而不是更努力地工作”。

本工具库由美国数字图书馆联盟(Digital Library Federation,DLF)之评估兴趣组(Assessment Interest Group,AIG) 之元数据工作组(Metadata Working Group,MWG)之元数据评估工具小组(Metadata Assessment Tools subgroup)制作。

项目始于2016年,当时收录21种工具。“在创建工具库的早期,每个工具都经过了严格的测试,以确定是否将其包含在存储库中。这意味着每个工具都有很多信息,但这对包含的工具数量有很大限制。为了包含更多的工具并使存储库成为更有用的资源,小组不再测试每个工具,现在依赖于每个工具的文档和社区知识”。尽管如此,此次更新,工具总数仍不到30种。页面上有链接供提交新工具、更正错误。“我们积极欢迎社区的意见,帮助我们提供有关所列工具的更准确和完整的信息!”

看工具库,既有专业编目软件如MarcEdit,也有通用数据处理插件如Open Refine,甚至还包括更通用的统计分析软件如R

这些工具支持的标准包括:

  • MARC, MODS, EAD, Dublin Core, BIBFRAME
  • IPTC Photo Metadata
  • PBCore, EBUCore
  • Framework for Interoperable Media Services (FIMS)
  • Exif, IPTC (IIM), GPS, TIFF
  • VRA Core
  • RDF

其中支持MARC的工具有:

  • MarcEdit(编辑/转换/验证/检索/分析;同时支持标准:MODS/EAD/Dublin Core)
  • K-Romanizer(韩语罗马化/转换)
  • LibreCat/Catmandu(创建/编辑/转换;同时支持标准:MODS/Dublin Core/RDF)
  • ruby-marc(创建/编辑/转换)
  • MatchMARC(检索)
  • MetadataMaker(创建;同时支持标准MODS/BIBFRAME)

原博文:

《元数据模式评估框架》征求意见

做数字(化)项目,都会遇到选择元数据的问题。在内容适用的若干元数据格式中,如何作出评价并选择确定所用的格式?

美国图书馆协会(ALA)核心元数据标准委员会正在制订《元数据模式评估框架》,其初稿现公开征求意见,2022-7-18截止。

本框架确定了9个可用于评估元数据模式的准则,每个准则还包含4个级别,用于评估给定模式满足从最低(例如,最低限度可接受)到最高(增值或最复杂)的程度。标准草案文本及反馈表单均在Google Drive,详见:

Core News: Core Metadata Standards Committee Seeks Feedback on Assessment Framework / By Jenny LevineIn. 2022-6-22

元数据模式评估框架 Metadata Schema Assessment Framework / Core Metadata Standards Committee

本框架主要基于 Pipino 等2002年在“数据质量评估”(Data Quality Assessment)中提出的15个维度,包括:可访问性、适当数量的数据、可信性、完整性、简洁的表示、易于操作、无错误、互操作性、客观性、相关性、声誉、安全性、及时性、可理解性和增值。经合并、改进或省略,形成本文件的9个准则:

  • 适用性(Applicability):元数据模式适用于手头任务的程度
  • 完整性(Completeness):元数据模式在多大程度上具有足够的广度和深度来满足模式的既定目的
  • 一致的表示(Consistent Representation):统一表示元数据模式的程度
  • 易于访问(Ease of Access):元数据模式和相关信息可靠可用或可轻松快速检索的程度
  • 互操作性(Interoperability):两个或多个系统或组件交换有关事物的数据的能力,并以与数据创建者的解释一致的方式解释已交换的数据
  • 维护(Maintenance):支持模式的连续性、审查和适应性的维持活动水平
  • 采用率(Rate of Adoption):元数据模式的使用程度
  • 可理解性(Understandability):元数据具有使其能够被用户阅读和解释的属性的程度,并在特定的使用环境中以适当的语言、符号和单位表示
  • 透明度、偏见和参与度(Transparency, Bias, & Engagement):元数据模式承认和记录可能的偏见的程度

为对上述9个准则进行测度,本框架基于2019年国家数字监护联盟(National Digital Stewardship Alliance)数字保存级别 2.0 版(Levels of Digital Preservation Version)模型,确定衡量每个准则的从低到高的4个适用级别。以下仅以“可理解性”为例说明:

  • 级别I,要求:[1]在稳定/静态的在线位置以活生生的人类语言提供人类可读的文档。
  • 级别II,在上述1外,还有2个要求:[2]该文档包括并定义了所有可接受的内容类型(即概念、元素、关系、受控词汇术语等)。[3]定义是非自引用的,并且在整个文档中使用一致的术语。
  • 级别III,在上述1-3外,还有1个要求:[4]文档的结构和编写方式对新手和高级用户都很有用。
  • 级别IV,在上述2-4之外,对1增加语言要求:人类可读的文档以多种活生生的人类语言提供并积极维护,包括非欧洲和非拉丁字符语言。

注:不知道是不是为了强调“政治正确”,9个准则中有“透明度、偏见和参与度”,但附上了特别说明:本节涉及数据元素中使用的值,而不是模式本身,因此在本文档中没有位置。 满足此处规定的其他准则(例如完整性、一致性、互操作性等)的模式将“符合目的”,因此将没有偏见。