科学数据管理的“FAIR原则”及其实施

【FAIR原则】https://www.go-fair.org/fair-principles/

2016年,Mark D. Wilkinson等在《Scientific Data》上发表 The FAIR Guiding Principles for scientific data management and stewardship( https://doi.org/10.1038/sdata.2016.18),提出科学数据管理的“FAIR指导原则”,即改善数字资产的可查找性(Findability)、可获取性/可访问性(Accessibility)、互操作性(Interoperability)和重用性(Reusability)。原则强调机器可操作性,即计算系统在没有或最少人为干预的情况下查找、获取、互操作和重用数据的能力。

FAIR原则涉及三种类型的实体:数据(或任何数字对象)、元数据(有关该数字对象的信息)和基础架构(如注册、搜索引擎)。原则如下:

  • F 可查找性
  • (重复)使用数据的第一步是找到它们。对人和计算机来说,元数据和数据都应该易于找到。机器可读的元数据对于自动发现数据集和服务至关重要,因此这是“FAIR化流程”的重要组成部分。
  • F1、(元)数据被分配一个全局唯一且持久的标识符
  • F2、用丰富的元数据(由下面的R1定义)描述数据
  • F3、元数据清晰明确地包含了它们描述的数据的标识符
  • F4、(元)数据在可搜索资源中注册或索引
  • A 可获取性
  • 一旦用户找到所需的数据,她/他就需要知道如何获取它们,可能包括身份验证和授权。
  • A1、(元)数据可使用标准化的通信协议通过其标识符进行检索
  • A1.1、协议是开放、免费的并且可以普遍实施
  • A1.2、协议允许在必要时进行身份验证和授权过程
  • A2、即使数据不再可用,也可以获取元数据
  • I 互操作性
  • 可互操作数据通常需要与其他数据集成。此外,数据需要与应用或工作流进行互操作,以进行分析、存储和处理。
  • I1、(元)数据使用一种形式化、可获取、共享和广泛适用的语言来表示知识。
  • I2、(元)数据使用符合FAIR原则的词表
  • I3、(元)数据包括对其他(元)数据的合格引用
  • R 重用性
  • FAIR的最终目标是优化数据的重用。为此,应详细描述元数据和数据,以便可以在不同的设置中复制和/或组合它们。
  • R1、(元)数据以多种准确且相关的属性进行丰富的描述
  • R1.1、(元)数据使用明确且可获取的数据使用许可证发布
  • R1.2、(元)数据与详细出处关联
  • R1.3、(元)数据符合领域相关的社区标准

走向FAIR社区https://www.go-fair.org/how-to-go-fair/

FAIR原则没有停留在学术论文中。自2018年以来,GO FAIR社区一直在努力实施FAIR指导原则。这种集体努力形成了一个三点框架,该框架制定了必不可少的步骤,为的是实现最终目标——一个全球性的“FAIR数据和服务互联网”,其中的数据可用于计算机的可查找、可获取、可互操作和可重用(FAIR)。

https://www.go-fair.org/wp-content/uploads/2020/07/3-point-framework_text_icon-background-1.png
三点框架指:M4M(用于机器的元数据)FIP(FAIR实施纲要)FDP(FAIR数据点)。自2020年4月以来,有3个相应的工作组在开发方法、工具和文档。

定义元数据需求:M4M研讨会https://www.go-fair.org/how-to-go-fair/metadata-for-machines/

没有机器可操作的元数据就没有FAIR数据。自2018年10月以来,已举办了6次M4M研讨会,由领域专家与元数据专家(数据管家)组成团队,定义满足特定领域的FAIR数据需求的元数据需求。

FAIR化流程https://www.go-fair.org/fair-principles/fairification-process/

对于非FAIR数据,走向FAIR社区采用7个步骤将之“FAIR化”:1检索非FAIR数据——2分析检索到的数据——3定义语义模型——4使数据可链接——5分配许可证——6定义数据集的元数据——7部署FAIR数据资源

https://www.go-fair.org/wp-content/uploads/2017/11/FAIRificationProcess-1.png