元数据评估工具库

DLF Metadata Assessment Working Group — Tools

元数据评估工具库,收录元数据相关工具的信息,包括工具的使用和功能、支持的元数据标准以及工具本身的文档链接。

本工具库将收录的元数据工具分为7个类别:[1]创建、[2]编辑、[3]验证、[4]转换、[5]抽取/嵌入、[6]检索、[7]分析。类别起到过滤器的作用,方便使用者筛选有助于特定工作类别的工具。具有多种功能的工具入多个类别;同时也支持搜索查找。

从类别可知,并非限于“评估”本身。实际上要评估元数据,必然要对元数据进行各种预处理,因此“通常借助于脚本和其他自动化工具”以“更聪明地工作,而不是更努力地工作”。

本工具库由美国数字图书馆联盟(Digital Library Federation,DLF)之评估兴趣组(Assessment Interest Group,AIG) 之元数据工作组(Metadata Working Group,MWG)之元数据评估工具小组(Metadata Assessment Tools subgroup)制作。

项目始于2016年,当时收录21种工具。“在创建工具库的早期,每个工具都经过了严格的测试,以确定是否将其包含在存储库中。这意味着每个工具都有很多信息,但这对包含的工具数量有很大限制。为了包含更多的工具并使存储库成为更有用的资源,小组不再测试每个工具,现在依赖于每个工具的文档和社区知识”。尽管如此,此次更新,工具总数仍不到30种。页面上有链接供提交新工具、更正错误。“我们积极欢迎社区的意见,帮助我们提供有关所列工具的更准确和完整的信息!”

看工具库,既有专业编目软件如MarcEdit,也有通用数据处理插件如Open Refine,甚至还包括更通用的统计分析软件如R

这些工具支持的标准包括:

  • MARC, MODS, EAD, Dublin Core, BIBFRAME
  • IPTC Photo Metadata
  • PBCore, EBUCore
  • Framework for Interoperable Media Services (FIMS)
  • Exif, IPTC (IIM), GPS, TIFF
  • VRA Core
  • RDF

其中支持MARC的工具有:

  • MarcEdit(编辑/转换/验证/检索/分析;同时支持标准:MODS/EAD/Dublin Core)
  • K-Romanizer(韩语罗马化/转换)
  • LibreCat/Catmandu(创建/编辑/转换;同时支持标准:MODS/Dublin Core/RDF)
  • ruby-marc(创建/编辑/转换)
  • MatchMARC(检索)
  • MetadataMaker(创建;同时支持标准MODS/BIBFRAME)

原博文:

《元数据模式评估框架》征求意见

做数字(化)项目,都会遇到选择元数据的问题。在内容适用的若干元数据格式中,如何作出评价并选择确定所用的格式?

美国图书馆协会(ALA)核心元数据标准委员会正在制订《元数据模式评估框架》,其初稿现公开征求意见,2022-7-18截止。

本框架确定了9个可用于评估元数据模式的准则,每个准则还包含4个级别,用于评估给定模式满足从最低(例如,最低限度可接受)到最高(增值或最复杂)的程度。标准草案文本及反馈表单均在Google Drive,详见:

Core News: Core Metadata Standards Committee Seeks Feedback on Assessment Framework / By Jenny LevineIn. 2022-6-22

元数据模式评估框架 Metadata Schema Assessment Framework / Core Metadata Standards Committee

本框架主要基于 Pipino 等2002年在“数据质量评估”(Data Quality Assessment)中提出的15个维度,包括:可访问性、适当数量的数据、可信性、完整性、简洁的表示、易于操作、无错误、互操作性、客观性、相关性、声誉、安全性、及时性、可理解性和增值。经合并、改进或省略,形成本文件的9个准则:

  • 适用性(Applicability):元数据模式适用于手头任务的程度
  • 完整性(Completeness):元数据模式在多大程度上具有足够的广度和深度来满足模式的既定目的
  • 一致的表示(Consistent Representation):统一表示元数据模式的程度
  • 易于访问(Ease of Access):元数据模式和相关信息可靠可用或可轻松快速检索的程度
  • 互操作性(Interoperability):两个或多个系统或组件交换有关事物的数据的能力,并以与数据创建者的解释一致的方式解释已交换的数据
  • 维护(Maintenance):支持模式的连续性、审查和适应性的维持活动水平
  • 采用率(Rate of Adoption):元数据模式的使用程度
  • 可理解性(Understandability):元数据具有使其能够被用户阅读和解释的属性的程度,并在特定的使用环境中以适当的语言、符号和单位表示
  • 透明度、偏见和参与度(Transparency, Bias, & Engagement):元数据模式承认和记录可能的偏见的程度

为对上述9个准则进行测度,本框架基于2019年国家数字监护联盟(National Digital Stewardship Alliance)数字保存级别 2.0 版(Levels of Digital Preservation Version)模型,确定衡量每个准则的从低到高的4个适用级别。以下仅以“可理解性”为例说明:

  • 级别I,要求:[1]在稳定/静态的在线位置以活生生的人类语言提供人类可读的文档。
  • 级别II,在上述1外,还有2个要求:[2]该文档包括并定义了所有可接受的内容类型(即概念、元素、关系、受控词汇术语等)。[3]定义是非自引用的,并且在整个文档中使用一致的术语。
  • 级别III,在上述1-3外,还有1个要求:[4]文档的结构和编写方式对新手和高级用户都很有用。
  • 级别IV,在上述2-4之外,对1增加语言要求:人类可读的文档以多种活生生的人类语言提供并积极维护,包括非欧洲和非拉丁字符语言。

注:不知道是不是为了强调“政治正确”,9个准则中有“透明度、偏见和参与度”,但附上了特别说明:本节涉及数据元素中使用的值,而不是模式本身,因此在本文档中没有位置。 满足此处规定的其他准则(例如完整性、一致性、互操作性等)的模式将“符合目的”,因此将没有偏见。

元数据平台MetaDoor引发OCLC起诉科睿唯安

十多年前,图书馆自动化系统公司Innovative Interface公司(III)开始提供编目服务,名为SkyRiver,在2012年时就曾因WorldCat书目数据与OCLC有过诉讼。经过这些年的并购(III -> 艾利贝斯 Ex Libris (Proquest) -> 科睿唯安 Clarivate),SkyRiver现属科睿唯安,用户仍在缓慢增长。

如今科睿唯安旗下艾利贝斯正开发“元数据平台MetaDoor”,尚未推出又遭OCLC诉讼,指控其盗用WorldCat记录。相关介绍可见微信公众号“图情那些事儿”:

Marshall Breeding的《图书馆技术通讯》(Library Technology Newsletter Vol 1 No 05)上月也推出2篇相关文章,其一关于本次诉讼(OCLC sues Clarivate over MetaDoor and its use of WorldCat records);其二介绍MetaDoor(MetaDoor: a new bibliographic service for libraries to be offered by Ex Libris)。

从“MetaDoor:艾利贝斯为图书馆提供的新书目服务”介绍来看,这个“元数据平台”不是联合目录或者书目记录库,而是一个书目索引中心库,作个不恰当的类比,不是全文库而是文摘索引库。“MetaDoor将作为点对点或基于社区的记录交换服务运行。该平台对参与机构的书目记录进行索引,并为每条记录分配代表其完整性和质量的分值。这些索引和算法构成书目生态系统的基础设施,可以通过网络界面访问或集成在 Alma 编目环境中。艾利贝斯将提供 API 以使图书馆能够开发自定义工具,其他供应商将 MetaDoor 集成到他们的产品中”。

其数据基础将是目前使用其Alma系统的2,322家图书馆,总计有12亿条书目记录、约2.75亿唯一品种。为规避版权风险,其并不保存书目记录,使用者由索引查到结果后(通常会有多个),可根据其分值等选择直接从某个参与图书馆下载记录。使用Alma的多为大图书馆,大量馆藏的书目记录来自WorldCat。对WorldCat数据的合理使用问题,多年前就有争论。对OCLC来说,通过此平台使用,还有可能丧失很多用户或潜在用户。

关于SkyRiver,参见:

相关并购,参见: