对于数据科学的学习者和应用实践者,常常需要查找适当的数据集进行分析。谷歌工具箱去年推出垂直搜索引擎——数据集搜索,收录托管在数千个Web存储库中数据集的信息。
数据集搜索(测试版)Dataset Search
据称该项目将带来的额外益处是:a)创建一个数据共享生态系统,鼓励数据发布者遵循数据存储和发布的最佳做法(采用用schema.org描述其数据集),b)为科学家提供一种通过引用他们生产的数据集来展示其工作影响的方法。
参见:Making it easier to discover datasets / Natasha Noy (2018-9-5)
现以“Library Collection Inventory”为例进行搜索。
上栏:搜索条件筛选,有4个:
- 更新日期(最近1个月、最近1年、最近3年)
- 下载格式(表格、文档、图像、文本、档案、其他)
- 使用权限(允许商业使用,允许非商业使用)
- 免费
左栏:搜索结果一览,提供信息:数据集名称、出处、更新日期
右栏:搜索结果详情,提供数据集详细信息(以下限浏览所见,不一定每个数据集都有,也不一定完整)
- [1] 名称
- [2] 来源及链接链接(蓝色按钮)
- 不同来源提供同样的数据集,归并在一起,因此可能有多个链接。
- 由于来源含数据集门户(如catalog.data.gov),最终数据集下载网站可能相同。
- 不同来源元数据信息详简不一,有的还有单独的数据字典,有助于使用。
- [3] 引用本数据集的学术论文数(含谷歌学术链接)
- 虽然这是声称的重要优点,目前似乎仍不实用。因为链接的只是以数据集名称搜索谷歌学术的通用检索式(如https://scholar.google.com/scholar?q=%22library%20collection%20inventory%22),并非真正提供引用此数据集的文章——显示有7篇论文引用某数据集,但链接过去有34个结果——在结果一览中也无法识别出哪几篇引用了此数据集。
- [4] 唯一标识符
- 出自dataverse.harvard.edu的有DOI。大多数没有,对数据集的引用及识别均有影响。
- [5] 日期(创建、发布、更新)
- [6] 提供者
- [7] 作者
- [8] 许可
- [9] 提供的下载格式。常见的有:rdf, xml, csv, json等。
- [10] 覆盖时间范围
- [11] 覆盖地理区域
- [12] 简介
用中文搜索,也可以找到数据集,最多的结果是来自司尔亚司数据信息有限公司(CEIC)的收费数据,浏览数据图示免费(可以定制时间范围、图示类型),下载或API收费。