W3C推荐标准《万维网数据最佳实践》

万维网数据最佳实践(Data on the Web Best Practices, DWBP) 2015年2月发布为草案,而后成为W3C推荐标准。当前版本2017年1月31日:Data on the Web Best Practices, W3C Recommendation 31 January 2017.

近年使用 Web 发布的数据持续增长:世界各国政府在线共享开放数据,研究数据联盟(RDA)等组织鼓励研究数据在线发布,社交数据的收集、分析和在线发布媒体数据,信息的众包,网络上重要文化遗产收藏,以及关联开放数据云。数据发布者旨在公开或以受控访问共享数据。

数据发布者旨在公开或以受控访问共享数据,数据消费者则希望能够找到、使用和链接到数据,这就产生了在数据发布者和数据消费者之间达成共识的基本需求。为界定 Web 上数据最佳实践的范围并引出所需的功能,DWBP 工作组编制了一组用例,代表数据通常如何在 Web 上发布以及如何在被使用,由用例派生的需求集用于指导最佳实践的开发。为鼓励数据发布者采用 DWBP,确定了8个益处:理解、可处理、可发现、重用、信任、可链接、使用权(访问/获取)和互操作,并与用例/最佳实践相关联。

虽然 DWBP 建议使用关联数据,但也鼓励其他开放格式(如 CSV)网络数据的最佳实践。

文件主要部分是第8节最佳实践的例子,内容包括:为什么,预期结果,可能的实施方法,人读、机读样例,如何测试,证据(相关需求)及益处等部分。以下是第8节最佳实践清单与第11节最佳实践益处合并处理后的表格(数字代表益处提及顺序)。

8.最佳实践/BP(益处)C理解P可处理D可发现R重用T信任L可链接A访问/获取I互操作
8.2Metadata
BP1,提供元数据(RCDP)
2431
BP2,提供描述元数据(RCD)231
BP3,提供结构元数据(RCP)231
8.3Data Licenses
BP4,提供数据许可证信息(RT)
12
8.4Data Provenance
BP5,提供数据出处信息(RCT)
213
8.5Data Quality
BP6,提供数据质量信息(RT)
12
8.6Data Versioning
BP7,提供版本指示(RT)
12
BP8,提供版本历史(RT)12
8.7Data Identifiers
BP9,使用永久URI作为数据集标识符(RLDI)
3124
BP10,使用永久URI作为数据集中的标识符(RLDI)3124
BP11,为数据集版本和系列赋予永久URI(RDT)213
8.8Data Formats
BP12,使用机器可读标准化数据格式(RP)
21
BP13,使用与区域设置无关的数据表达(RC)21
BP14,以多种格式提供数据(RP)21
8.9Data Vocabularies
BP15,重用词表、最好是标准化的(RPCTI)
32145
BP16,选择正确的形式化级别(RCI)213
8.10Data Access
BP17,提供批量下载(RA)
12
BP18,提供大数据集的子集(RLAP)4123
BP19,使用内容协商提供多种格式的数据(RA)12
BP20,提供实时访问(RA)12
BP21,提供最新数据(RA)12
BP22,为不可用的数据提供解释(RT)12
8.10.1Data Access APIs
BP23,通过 API 提供数据(RPIA)
2143
BP24,使用 Web 标准作为 API 的基础(RLIDAP)641253
BP25,为 API 提供完整文档(RT)12
BP26,避免对 API 进行重大更改(TI)12
8.11Data Preservation
BP27,保留标识符(RT)
12
BP28,评估数据集覆盖范围(RT)12
8.12Feedback
BP29,收集数据使用者的反馈(RCT)
213
BP30,提供反馈渠道(RT)12
8.13Data Enrichment
BP31,通过生成新数据来丰富数据(RCTP)
2413
BP32, 提供补充演示(RCAT)2143
8.14Republication
BP33,向原始发布者提供反馈(RIT)
132
BP34,遵守许可条款(RT)12
BP35,引用原始出版物(RDT)213

科学数据管理的“FAIR原则”及其实施

【FAIR原则】https://www.go-fair.org/fair-principles/

2016年,Mark D. Wilkinson等在《Scientific Data》上发表 The FAIR Guiding Principles for scientific data management and stewardship( https://doi.org/10.1038/sdata.2016.18),提出科学数据管理的“FAIR指导原则”,即改善数字资产的可查找性(Findability)、可获取性/可访问性(Accessibility)、互操作性(Interoperability)和重用性(Reusability)。原则强调机器可操作性,即计算系统在没有或最少人为干预的情况下查找、获取、互操作和重用数据的能力。

FAIR原则涉及三种类型的实体:数据(或任何数字对象)、元数据(有关该数字对象的信息)和基础架构(如注册、搜索引擎)。原则如下:

  • F 可查找性
  • (重复)使用数据的第一步是找到它们。对人和计算机来说,元数据和数据都应该易于找到。机器可读的元数据对于自动发现数据集和服务至关重要,因此这是“FAIR化流程”的重要组成部分。
  • F1、(元)数据被分配一个全局唯一且持久的标识符
  • F2、用丰富的元数据(由下面的R1定义)描述数据
  • F3、元数据清晰明确地包含了它们描述的数据的标识符
  • F4、(元)数据在可搜索资源中注册或索引
  • A 可获取性
  • 一旦用户找到所需的数据,她/他就需要知道如何获取它们,可能包括身份验证和授权。
  • A1、(元)数据可使用标准化的通信协议通过其标识符进行检索
  • A1.1、协议是开放、免费的并且可以普遍实施
  • A1.2、协议允许在必要时进行身份验证和授权过程
  • A2、即使数据不再可用,也可以获取元数据
  • I 互操作性
  • 可互操作数据通常需要与其他数据集成。此外,数据需要与应用或工作流进行互操作,以进行分析、存储和处理。
  • I1、(元)数据使用一种形式化、可获取、共享和广泛适用的语言来表示知识。
  • I2、(元)数据使用符合FAIR原则的词表
  • I3、(元)数据包括对其他(元)数据的合格引用
  • R 重用性
  • FAIR的最终目标是优化数据的重用。为此,应详细描述元数据和数据,以便可以在不同的设置中复制和/或组合它们。
  • R1、(元)数据以多种准确且相关的属性进行丰富的描述
  • R1.1、(元)数据使用明确且可获取的数据使用许可证发布
  • R1.2、(元)数据与详细出处关联
  • R1.3、(元)数据符合领域相关的社区标准

走向FAIR社区https://www.go-fair.org/how-to-go-fair/

FAIR原则没有停留在学术论文中。自2018年以来,GO FAIR社区一直在努力实施FAIR指导原则。这种集体努力形成了一个三点框架,该框架制定了必不可少的步骤,为的是实现最终目标——一个全球性的“FAIR数据和服务互联网”,其中的数据可用于计算机的可查找、可获取、可互操作和可重用(FAIR)。

https://www.go-fair.org/wp-content/uploads/2020/07/3-point-framework_text_icon-background-1.png
三点框架指:M4M(用于机器的元数据)FIP(FAIR实施纲要)FDP(FAIR数据点)。自2020年4月以来,有3个相应的工作组在开发方法、工具和文档。

定义元数据需求:M4M研讨会https://www.go-fair.org/how-to-go-fair/metadata-for-machines/

没有机器可操作的元数据就没有FAIR数据。自2018年10月以来,已举办了6次M4M研讨会,由领域专家与元数据专家(数据管家)组成团队,定义满足特定领域的FAIR数据需求的元数据需求。

FAIR化流程https://www.go-fair.org/fair-principles/fairification-process/

对于非FAIR数据,走向FAIR社区采用7个步骤将之“FAIR化”:1检索非FAIR数据——2分析检索到的数据——3定义语义模型——4使数据可链接——5分配许可证——6定义数据集的元数据——7部署FAIR数据资源

https://www.go-fair.org/wp-content/uploads/2017/11/FAIRificationProcess-1.png

试用谷歌数据集搜索

对于数据科学的学习者和应用实践者,常常需要查找适当的数据集进行分析。谷歌工具箱去年推出垂直搜索引擎——数据集搜索,收录托管在数千个Web存储库中数据集的信息。

数据集搜索(测试版)Dataset Search

据称该项目将带来的额外益处是:a)创建一个数据共享生态系统,鼓励数据发布者遵循数据存储和发布的最佳做法(采用用schema.org描述其数据集),b)为科学家提供一种通过引用他们生产的数据集来展示其工作影响的方法。

参见:Making it easier to discover datasets / Natasha Noy (2018-9-5)

现以“Library Collection Inventory”为例进行搜索。

上栏:搜索条件筛选,有4个:

  • 更新日期(最近1个月、最近1年、最近3年)
  • 下载格式(表格、文档、图像、文本、档案、其他)
  • 使用权限(允许商业使用,允许非商业使用)
  • 免费

左栏:搜索结果一览,提供信息:数据集名称、出处、更新日期

右栏:搜索结果详情,提供数据集详细信息(以下限浏览所见,不一定每个数据集都有,也不一定完整)

  • [1] 名称
  • [2] 来源及链接链接(蓝色按钮)
  • 不同来源提供同样的数据集,归并在一起,因此可能有多个链接。
  • 由于来源含数据集门户(如catalog.data.gov),最终数据集下载网站可能相同。
  • 不同来源元数据信息详简不一,有的还有单独的数据字典,有助于使用。
  • [3] 引用本数据集的学术论文数(含谷歌学术链接)
  • 虽然这是声称的重要优点,目前似乎仍不实用。因为链接的只是以数据集名称搜索谷歌学术的通用检索式(如https://scholar.google.com/scholar?q=%22library%20collection%20inventory%22),并非真正提供引用此数据集的文章——显示有7篇论文引用某数据集,但链接过去有34个结果——在结果一览中也无法识别出哪几篇引用了此数据集。
  • [4] 唯一标识符
  • 出自dataverse.harvard.edu的有DOI。大多数没有,对数据集的引用及识别均有影响。
  • [5] 日期(创建、发布、更新)
  • [6] 提供者
  • [7] 作者
  • [8] 许可
  • [9] 提供的下载格式。常见的有:rdf, xml, csv, json等。
  • [10] 覆盖时间范围
  • [11] 覆盖地理区域
  • [12] 简介

用中文搜索,也可以找到数据集,最多的结果是来自司尔亚司数据信息有限公司(CEIC)的收费数据,浏览数据图示免费(可以定制时间范围、图示类型),下载或API收费。