用Schema.org描述数据集

随着开放信息、开放政府、开放科学的发展,互联网上各类数据集越来越多。Schema.org的“数据集”就是专用于对这类数据集进行结构化描述的元数据方案。它描述的是数据集的基本信息,而不是数据集当中的数据,其目的是改进对数据集的搜索。

制订“数据集”的工作始于2012年[1]。按Dataset页末致谢部分说明,工作由W3C DCAT承担,同时得益于DCAT, ADMS和VoID [2]。数据集(Dataset)目前仍在开发中,欢迎实验并征求反馈意见。作为“创作作品”的子集,未列入组织架构图(Organization of Schemas)。当然作为小众应用,很可能作为“扩展”而不列入核心词表。

在Google开发者网站的文档中,有Science Datasets [3] ,介绍“数据集”相关属性及其使用。属性可分为7个部分,其中不少并非Dataset所特有:
1、基本数据集属性:必备属性 (括号中为取值类型)
name 名称(文本)
description 描述(文本)简单概要
url 网址(URL)描述该数据集页面的网址
sameAs 等同网址(URL)可用于访问该数据集页面的其他网址
version 版本(文本、数字)
keywords 关键词(文本)
variableMeasured 测度变量(文本、属性值)
creator.name 创建者名称(Person, Organization)个人、组织
其中“测度变量”指数据集测度什么,比如温度、压力。本属性尚未确定,正征求反馈意见。
2、数据目录属性
includedInDataCatalog 包含在数据目录(DataCatalog)数据集所属存储库
3、下载信息属性
distribution 发行(DataDownload)描述数据集下载位置、文件格式
distribution.fileFormat 文件格式(文本)
distribution.contentURL 内容网址(URL)下载链接
4、时间范围
temporalCoverage(ISO 8601)
数据集中的数据覆盖的特定时间间隔,可以是单一数据或时间段。
5、空间范围
spatialCoverage
数据集中的数据覆盖的空间方位。可以是单一点(GeoCoordinates)或区域(GeoShape)的坐标,也可以是命名位置(地理名称)。
6、引文和出版物
citation(文本、创作作品)引用描述该数据集的出版物(被引)
7、出处和许可信息
license 许可(URL、文本)数据集发布许可的URL

文档最后对“出处”使用 sameAs 还是 isBasedOn 作了说明。
文档中还有一个完整样例,是用上述属性描述美国政府开放数据 NCDC Storm Events Database。在原数据介绍页面下部,有描述元数据,但未做结构化标识。

——— Dataset新增类及属性 ———
根据开发网页即W3C的WebSchemas/Datasets [4],本扩展目前含3个新类型及相应属性(未包括前述:variableMeasured 测度变量)
– Thing > CreativeWork > Dataset 数据集
catalog(DataCatalog) 目录(数据目录:容纳数据集的数据目录)
distribution(DataDownload) 发布(数据下载:该数据集的可下载形式,在特定位置、以特定格式)
spatial(Place) 空间(地点:数据集的空间适用范围)
temporal(DateTime) 时间(日期时间:数据集的时间适用范围)
– Thing > CreativeWork > DataCatalog 数据目录(数据集的集合)
dataset(Dataset) 数据集(包含在目录中的数据集)
– Thing > CreativeWork > MediaObject > DataDownload 数据下载(可下载形式的数据集)

参见(梯子自备):
[1] schema blog: Describing Datasets with schema.org (JULY 11, 2012)
[2]Schema.org – Dataset
关于DCAT、ADMS和VoID词表:
DCAT:数据目录词表 Data Catalog Vocabulary (W3C Recommendation 16 January 2014)
ADMS:资产描述元数据方案 Asset Description Metadata Schema (W3C Working Group Note 01 August 2013)
VoID:互联数据集词表 Vocabulary of Interlinked Datasets (最后更新 06 March 2011)
[3] Google Search — Documentation: Science Datasets
[4] W3C wiki: WebSchemas/Datasets