NISO发布入门读物《理解元数据》

NISO上月发布初入门读物《理解元数据》。2004年时NISO曾发布过类似出版物,此为十多年后的更新版。作者Jenn Riley是加拿大麦吉尔大学图书馆数字倡议部副主任(Associate Dean, Digital Initiatives),特别说明此次增加了关联数据相关内容。
本指南重点在文化遗产领域的元数据,读者对象是已经用元数据工作的有经验的信息管理者,以及不太熟悉信息交换问题的专业人员。对于元数据的作用,NISO执行理事Todd Carpenter称: “在数字世界,有关内容的信息常会比内容本身更重要。没有好的元数据,信息有效性就消失了。”

UNDERSTANDING METADATA: WHAT IS METADATA, AND WHAT IS IT FOR? / Jenn Riley. National Information Standards Organization (NISO), 2017. 45 pages. ISBN 978-1-937522-72-8

本入门中,各种常见元数据的介绍占很大篇幅,一般都会介绍其标记方式(XML、RDF等),但并没有统一形式,看起来比较轻松。
非常有意思的是,在开始的“日常生活中的元数据”部分,特别提出亚马逊的元数据行动(p.3, Metadata in Action: Amazon and its Affiliates),又在结束的“元数据如何生成”部分提到亚马逊通过ONIX供应链共享元数据(p.38),但始终没有介绍Amazon采用的元数据格式。
“未来方向”部分,对“众包”的评价相当高,也确实反映现实:
元数据的开放与互联的新兴文化,导致对“权威”或“好的”元数据的重新定义……几乎每个论题线上都有见多识广的爱好者社区,相比承担内容管理职责、但缺少这一主题专家的机构,这些个人常能提供好得多的元数据。智能系统可结合更传统来源的元数据与用户生成元数据……。(p.40)

这是NISO“入门出版物”系列第2本,2015年已发布《研究数据管理》。参见:NISO发布初级读物《研究数据管理》(2015-9-7)

Via NISO Press Release: NISO Publishes “Understanding Metadata” Primer (2017-1-18)

——— 《理解元数据》目次(及笔记概要) ———

导言
日常生活中的元数据 (2012谷歌“知识图谱”:35亿“事实”,约5亿元数据-人、地、事及关系;2010 LC存档推特内容及元数据)
文化遗产世界中的元数据 (图档博)
元数据类型 (1描述元数据;2管理元数据:技术/保存/权利;3结构元数据;4标记语言)
元数据如何存储与分享?
– 关系数据库
– XML (2000s)
– 关联数据和RDF (2006)
标准化元数据
– 受控词表 (提及:Internet MIME types, Spotify genres, BISAC, LCSH)
– 内容标准 (提及:Wikipedia Manual of Style guidelines for Infoboxes, DACS, RAD, AACR2, RDA)
著名元数据语言:广泛使用的例子
– Schema.org (2011发布,近600“类型”、超800属性。2014.4 OCLC用来发布近2亿图书等的书目描述)
– OWL:Web本体语言
– SKOS:简单知识组织系统
– DC:都柏林核心 (DC、DCTerms。有对《DCMI抽象模型》和《新加坡框架》的简评)
– FOAF:朋友的朋友
– ONIX:联机信息交换 (1图书,2连续出版物,3出版物许可证。2009年3.0支持电子书)
– Exif:可交换图像文件格式 (Tiff和JPEG支持嵌入Exif,但JPEG2000,PNG,GIF不支持)
著名元数据语言:文化遗产界的例子
– MARC:机读目录 (1968)
– BIBFRAME:书目框架项目 (2016.4发布2.0)
– MODS:元数据对象描述方案 (20个顶层元素)
– CIDOC CRM:CIDOC概念参考模型 (博物馆界,基础本体。区别性特征:不仅专注描述文化遗产对象,而且专注与其创建与生命周相关的行动与事件)
– CDWA:艺术作品描述类别 (艺术博物馆界,540个数据元素及其关系)
– VRA Core:视觉资源协会核心 (艺术史、艺术与建筑,有约束版、非约束版。区别性特征:有关艺术作品本身的元数据与有关这些作品图像的元数据分离)
– EAD:编码档案描述
– 著名元数据语言:其他例子
— DDI:数据文档项目(大元素集,描述社会、行为和经济科学中的数据……随着研究界越来越重视数据管理规划,以及研究数据的开放传播和长期管理,DDI越来越重要)
— PREMIS:保存元数据实施策略 (数字归档领域。定义5个实体:对象,环境,事件,行为主体,权利)
— TEI:文本编码项目 (机读文本标记语言。文本元素:1基本结构特性;2语义元素;3超或非文本特性:表格,嵌入图形)
— MEI:音乐编码项目 (乐谱,基于TEI)
元数据如何生成? (1人力、专家;2自动处理;3分享;4自动生成:自动转录讲话,脸部识别,潜在语义分析和论题建模,时态和名称-实体识别,自动图像标注,音乐信息检索)
未来方向 (1关联数据;2自动创建和维护元数据;3元数据开放与互联:众包、用户生成元数据)
附录A:资源
– 元数据标准和词表
– XML标准和资源
– RDF标准和资源
– RDF序列化
– 关联数据资源
– 观察项目(BIBFRAME,DBPedia,DPLA)