试用谷歌数据集搜索

对于数据科学的学习者和应用实践者,常常需要查找适当的数据集进行分析。谷歌工具箱去年推出垂直搜索引擎——数据集搜索,收录托管在数千个Web存储库中数据集的信息。

数据集搜索(测试版)Dataset Search

据称该项目将带来的额外益处是:a)创建一个数据共享生态系统,鼓励数据发布者遵循数据存储和发布的最佳做法(采用用schema.org描述其数据集),b)为科学家提供一种通过引用他们生产的数据集来展示其工作影响的方法。

参见:Making it easier to discover datasets / Natasha Noy (2018-9-5)

现以“Library Collection Inventory”为例进行搜索。

上栏:搜索条件筛选,有4个:

  • 更新日期(最近1个月、最近1年、最近3年)
  • 下载格式(表格、文档、图像、文本、档案、其他)
  • 使用权限(允许商业使用,允许非商业使用)
  • 免费

左栏:搜索结果一览,提供信息:数据集名称、出处、更新日期

右栏:搜索结果详情,提供数据集详细信息(以下限浏览所见,不一定每个数据集都有,也不一定完整)

  • [1] 名称
  • [2] 来源及链接链接(蓝色按钮)
  • 不同来源提供同样的数据集,归并在一起,因此可能有多个链接。
  • 由于来源含数据集门户(如catalog.data.gov),最终数据集下载网站可能相同。
  • 不同来源元数据信息详简不一,有的还有单独的数据字典,有助于使用。
  • [3] 引用本数据集的学术论文数(含谷歌学术链接)
  • 虽然这是声称的重要优点,目前似乎仍不实用。因为链接的只是以数据集名称搜索谷歌学术的通用检索式(如https://scholar.google.com/scholar?q=%22library%20collection%20inventory%22),并非真正提供引用此数据集的文章——显示有7篇论文引用某数据集,但链接过去有34个结果——在结果一览中也无法识别出哪几篇引用了此数据集。
  • [4] 唯一标识符
  • 出自dataverse.harvard.edu的有DOI。大多数没有,对数据集的引用及识别均有影响。
  • [5] 日期(创建、发布、更新)
  • [6] 提供者
  • [7] 作者
  • [8] 许可
  • [9] 提供的下载格式。常见的有:rdf, xml, csv, json等。
  • [10] 覆盖时间范围
  • [11] 覆盖地理区域
  • [12] 简介

用中文搜索,也可以找到数据集,最多的结果是来自司尔亚司数据信息有限公司(CEIC)的收费数据,浏览数据图示免费(可以定制时间范围、图示类型),下载或API收费。

Innovative公司被艾利贝斯公司收购

早上收到Innovative公司(即III)CEO邮件,主题是Innovative signs agreement to be acquired by Ex Libris,首先是感到震惊。继而想到Proquest/Ex Libris一统江湖顺风顺水,再下一城也没什么好奇怪的。随着Innovative被并购,如今自行开发图书馆自动化系统的大公司只剩SirsiDynix了。

III和Ex Libris及其母公司ProQuest网站上都发布了相同的新闻稿:

Ex Libris Signs Definitive Agreement to Acquire Innovative (December 5, 2019)

并购将于2020年初完成。新闻稿最后有III公司博客上的FAQ链接:Top Questions About Ex Libris Agreement to Acquire Innovative (December 5, 2019)

FAQ包括:收购理念,客户(对III客户和Ex Libris客户),组织与管理,业务连续性。从中获取信息:

1、III将成为Ex Libris的一个业务部门(Business unit),暂时原有业务照旧。

2、FAQ中多处提到云服务、基于云的解决方案,这应该是III的重大缺憾。

3、Alma仍是Ex Libris主推系统。

想起去年III来宣讲产品,我问为什么系统的用户手册不能在网上公开访问。实际上因为要密码登录,很多同事都没有看过Millennium系统的联机手册。
销售主管很奇怪地问我:不是用户,为什么要了解产品?
我说,让大家都了解有什么功能、如何使用,也是一种宣传啊。别的公司就是这么做的。
他质疑:什么公司?
我很奇怪他竟然会不知道有这样的公司存在,而且就是他们的竞争对手。在这种场合我不想明言,只好笑着说:不就是那家公司嘛。
希望Innovative被那家公司收购后,企业文化也能为之一变。 

SWIB19:语义网在图书馆会议(报告概要)

第11届语义网在图书馆会议(SWIB19)将于2019年11月25-27日在德国汉堡举行。第1天下午是培训讲习班;第2-3天会议,主旨发言分别是Saskia Scheltjens和曾蕾教授。会议议程有报告摘要,可以先了解大致情况。

首次SWIB会议2009年举办,会名缩写来自德文(SEMANTIC WEB IN BIBLIOTHEKEN),历届会议报告也大都来自欧州。本次会议可见欧洲对语义网/关联数据在图书馆应用探索深入,尤其是多国的国家图书馆。

培训班(半天)

教授相关软件的实际操作,可了解语义网/关联数据在图书馆领域的在用工具。今年有5个培训:

  • 1、Jupyter Notebooks入门(交互式笔记本)
  • 2、用Cocoda映射受控词表
  • 3、OpenRefine入门【参见:OpenRefine数据处理工具(2016-7-9)】
  • 4、用Annif自动化主题标引
  • 5、动手IIIF:如何安装、配置和准备简单的IIIF服务(国际图像互操作框架International Image Interoperability Framework)

第1天会议

1、(主旨报告)永远在两者之间:图档博关联开放数据(LODLAM)的异同、机遇与责任 / Saskia Scheltjens(荷兰国立博物馆)

2、在Data.Bibliotheken.nl上发布关联数据 / René Voorburg(荷兰国家图书馆)荷兰国家图书馆的data.bibliotheken.nl,目前以schema.org序列化,正在进行基于LRM和PREMIS的模型。

3、2千万个URI和芬兰图书馆界主题索引的全面改革 / Matias Frosterus等(芬兰国家图书馆)从叙词表YSA转换到本体YSO;不仅全国联合目录Melinda转换,还有开源转换程序提供其他图书馆本地使用。

4、进出:西班牙国家图书馆的图书馆数据和关联数据之间的工作流程 / Ricardo Santos(西班牙国家图书馆)由VIAF标识符数据包文件抽取Wikidata标识符,加载到规范记录;再从Wikidata提取8万多人的属性信息,丰富规范数据。

5、从原始数据到更丰富的数据:汇总元数据时的经验教训 / Julia Beck(德国法兰克福大学图书馆)汇总德语文化遗产机构的演艺元数据(异构数据)于VuFind搜索门户

6、NAISC:图书馆领域的权威关联数据互连方法 / Lucy McKenna等(爱尔兰都柏林三一学院)继续SWIB 2018曾介绍的NAISC,创建实体(如人、地点或作品)间链接,采用PROV-O作为基础本体加以扩展。

7、酷和BnF帮:法国国家图书馆关于处理永久标识符的一些想法 / Raphaëlle Lapôtre(法国国家图书馆)

第2天会议

1、(主旨报告)用于数字人文的智慧数据 / 曾蕾(美国肯特州立大学)

2、数字资源和研究数据:链接且可用 / Florian Kräutli等(德国马克斯·普朗克科学史研究所)马克斯·普朗克人文数字研究基础设施(MP-DRIH),基础架构的中心是知识图谱,使用CIDOC-CRM作为通用模型,采用基于语义数据平台Metaphactory的软件系统ResearchSpace使用生成的图谱。

3、BIBFRAME内外的数据建模 / Tiziana Possemato(意大利@Cult and Casalini Libri公司)依据BIBFRAME,Share-VDE已进入生产阶段。扩展BF本体,增加概念:超级作品、主实例。【其用户界面与早先的Share目录类似。参见:BIBFRAME 2.0实施注册新增项目(附:意大利SHARE目录)(2017-7-25】

4、图书馆目录的实证评估 / Péter Király(德国GWDG)用工具分析MARC目录的问题:字段/子字段/指示符、词典取值等错误;计算完整性,基于FRBR用户任务运行功能分析。

5、简单应用纲要/应用程序配置文件设计 / Karen Coyle / Tom Baker(DCMI)2019.4成立的DCMI AP兴趣小组的工作

6、SkoHub:通过ActivityPub基于KOS的内容联合 / Adrian Pohl等(德国hbz)/ Felix Ostrowski(graphthinking GmbH)2家企业合作的SkoHub项目,利用社交网络协议ActivityPub,发送和订阅受控词表中定义的主题的通知。

7、提出丰富的关联开放数据集视图:S路径原型和data.bnf.fr中FRBR化数据的可视化 / Raphaëlle Lapôtre等(法国国家图书馆,法国国家信息与自动化研究所)data.bnf.fr团队与人机交互研究团队ILDA合作,设计交互数据可视化界面“S路径”,使用户可以更直观地导航关联开放数据。S路径对于揭示数据源中的缺陷、可视化建模特性以及显示可用于与最终用户进行通信的数据趋势非常有用。

8、目标词汇表映射 / Niklas Lindström(瑞典国家图书馆)

9、在OCLC研究部的关联数据Wikibase原型中表示图书馆元数据的经验教训 / Karen Smith-Yoshimura(美国OCLC)

参见:
OCLC关联数据Wikibase原型系统项目(附:图书馆关联数据:从幻灭到生产)(2018-11-24)
OCLC发布报告:用Wikibase创建图书馆关联数据(2019-10-10)
用Wikibase创建图书馆关联数据:通道项目的经验(2019-10-15)