维基数据与图书馆(IFLA Wikidata Working Group系列会议)

IFLA维基数据工作组(IFLA Wikidata Working Group)于2019年底成立,旨在探索和倡导图书馆和信息专业人士使用并贡献于Wikidata,将Wikidata和Wikibase与图书馆系统集成,以及将Wikidata本体与图书馆元数据格式(如BIBFRAME、RDA和MARC)对齐。其背景是:2016年IFLA白皮书《学术研究图书馆和维基百科的机会》(Opportunities for Academic and Research Libraries and Wikipedia)指出:“Wikidata潜在地将关联数据和关联数据规范一起跨世界的各种语言以及许多不同的本体和分类法吸引到全世界的研究人员。”许多图书馆越来越多地利用Wikidata的功能,但是,缺乏国际协调和交流阻碍了这种潜力。

工作组得到Wikimedia基金资助,原计划在2020年IFLA年会举办卫星会议。年会因新冠肺炎(COVID-19)大流行而取消,卫星会议则改为6-8月的6场线上报告/讨论,时长半到一小时不等。视频于2020-9-24在IFLA油管频道发布,其中3场有中文字幕。报告主要涉及维基项目中的Wikidata、Wikibase和Wikisource,也提到Wikicite、Wikimedia Commons等。主持人Stacy Allison-Cassin(IFLA维基数据工作组领导,加拿大约克大学)、多个主讲人本身是积极参与维基项目者。

会议介绍:IFLA releases 6 videos on Wikidata and Wikibase in Libraries (24 September 2020)

油管会议网页:Wikicite + Libraries Discussion Series

(部分报告视频中的标题与页面显示标题不同,以下所列为视频中标题)

1. Wikidata和图书馆的数字转型(Wikidata and Digital Transformation in Libraries / Jason Evans and Simon Cobb)

  • 威尔士国家图书馆介绍与Wikidata的合作项目:上传图片到Wikimedia Commons,作者、出版社数据可视化;最终希望Wikidata ID出现在图书馆目录中……。
  • Simon Cobb介绍Wikidata数据处理,提到其中的Wikicite有2500万文章,Wikidata有作者消歧工具。

2. 当德语规范库GND遇到Wikibase(GND meets Wikibase / Barbara Fischer and Sarah Hartman)

  • 德国国家图书馆介绍2019年开始的项目:使用Wikibase发布GND规范库,本地安装、可控、具有持久性,又可与外部连接。

3. Wikisource如何管理数据?(How do Wikisources manage data? / Nicolas Vigneron)

  • 从2004年项目开始即参与的报告人介绍维基的免费在线合作图书馆(https://en.wikisource.org/)。
  • 其中提到应用FRBR层次,但简化为三层——内容表达和载体表现合并为版本(与BIBFRAME异曲同工)。
  • 报告及问答阶段提到图书馆目录与规范的不完善。

4. 关注差距:Wikidata数据如何补充和完善元数据工作(Mind the Gap! How Wikidata complements and completes metadata work / Ahava Cohen)

  • 以色列国家图书馆介绍本馆项目如何使用Wikidata。
  • 最有激情的报告,前12分钟讲述自己为什么会参与Wikidata项目——因为以色列国家图书馆的多语言文字现状、以色列人名广泛重复……。
  • 具体介绍的6个项目:1)修改Wikidata非拉丁人物姓名(原拉丁字母拼写);2)WikiCommons照片库,3)IFLA匿名经典,希伯亚姓名,加上本馆/LC/VIAF/Wikidata的ID;4)本馆制作的以色列出版社数据库放到Wikidata;5)利用Wikidata为本馆规范档批添加ORCID;6)使用Wikidata连接Ben-Yehuda作者ID与本馆ID。
  • 问答阶段,提问涉及Wikidata的权威性,依赖它是否可靠?回答是该馆与作者接触紧密,有很多鲜活的例子可以说明没有什么机构的记录是权威的(比如作者本人都常不确定自己姓名的写法,因为离婚要求修改自己的规范名称……)。

5. 知识平等、图书馆元数据和Wikidata(Knowledge Equity, Library Metadata & Wikidata / Stacy Allison-Cassin and Karim Tharani)

  • 围绕Wikimedia运动战略中的“知识平等”展开讨论,涉及Wikidata的多语言支持、非西方中心论。
  • 知识平等(Knowledge equity):作为一项社会运动,我们将努力集中于权力和特权结构所遗漏的知识和社区。我们欢迎来自各个背景的人们建立强大而多样的社区。我们将打破阻止人们获取和贡献自由知识的社会、政治和技术障碍。(Strategy/Wikimedia movement/2018-20)】

6. 学术档案[学者身份]、Wikidata和学术图书馆(Scholarly Profiles, Wikidata and Academic Libraries / Meg Wacha)

  • 提到开源工具Scholia(https://github.com/fnielsen/scholia)使用Wikidata创建学者、机构、出版物等的档案。

科学数据管理的“FAIR原则”及其实施

【FAIR原则】https://www.go-fair.org/fair-principles/

2016年,Mark D. Wilkinson等在《Scientific Data》上发表 The FAIR Guiding Principles for scientific data management and stewardship( https://doi.org/10.1038/sdata.2016.18),提出科学数据管理的“FAIR指导原则”,即改善数字资产的可查找性(Findability)、可获取性/可访问性(Accessibility)、互操作性(Interoperability)和重用性(Reusability)。原则强调机器可操作性,即计算系统在没有或最少人为干预的情况下查找、获取、互操作和重用数据的能力。

FAIR原则涉及三种类型的实体:数据(或任何数字对象)、元数据(有关该数字对象的信息)和基础架构(如注册、搜索引擎)。原则如下:

  • F 可查找性
  • (重复)使用数据的第一步是找到它们。对人和计算机来说,元数据和数据都应该易于找到。机器可读的元数据对于自动发现数据集和服务至关重要,因此这是“FAIR化流程”的重要组成部分。
  • F1、(元)数据被分配一个全局唯一且持久的标识符
  • F2、用丰富的元数据(由下面的R1定义)描述数据
  • F3、元数据清晰明确地包含了它们描述的数据的标识符
  • F4、(元)数据在可搜索资源中注册或索引
  • A 可获取性
  • 一旦用户找到所需的数据,她/他就需要知道如何获取它们,可能包括身份验证和授权。
  • A1、(元)数据可使用标准化的通信协议通过其标识符进行检索
  • A1.1、协议是开放、免费的并且可以普遍实施
  • A1.2、协议允许在必要时进行身份验证和授权过程
  • A2、即使数据不再可用,也可以获取元数据
  • I 互操作性
  • 可互操作数据通常需要与其他数据集成。此外,数据需要与应用或工作流进行互操作,以进行分析、存储和处理。
  • I1、(元)数据使用一种形式化、可获取、共享和广泛适用的语言来表示知识。
  • I2、(元)数据使用符合FAIR原则的词表
  • I3、(元)数据包括对其他(元)数据的合格引用
  • R 重用性
  • FAIR的最终目标是优化数据的重用。为此,应详细描述元数据和数据,以便可以在不同的设置中复制和/或组合它们。
  • R1、(元)数据以多种准确且相关的属性进行丰富的描述
  • R1.1、(元)数据使用明确且可获取的数据使用许可证发布
  • R1.2、(元)数据与详细出处关联
  • R1.3、(元)数据符合领域相关的社区标准

走向FAIR社区https://www.go-fair.org/how-to-go-fair/

FAIR原则没有停留在学术论文中。自2018年以来,GO FAIR社区一直在努力实施FAIR指导原则。这种集体努力形成了一个三点框架,该框架制定了必不可少的步骤,为的是实现最终目标——一个全球性的“FAIR数据和服务互联网”,其中的数据可用于计算机的可查找、可获取、可互操作和可重用(FAIR)。

https://www.go-fair.org/wp-content/uploads/2020/07/3-point-framework_text_icon-background-1.png
三点框架指:M4M(用于机器的元数据)FIP(FAIR实施纲要)FDP(FAIR数据点)。自2020年4月以来,有3个相应的工作组在开发方法、工具和文档。

定义元数据需求:M4M研讨会https://www.go-fair.org/how-to-go-fair/metadata-for-machines/

没有机器可操作的元数据就没有FAIR数据。自2018年10月以来,已举办了6次M4M研讨会,由领域专家与元数据专家(数据管家)组成团队,定义满足特定领域的FAIR数据需求的元数据需求。

FAIR化流程https://www.go-fair.org/fair-principles/fairification-process/

对于非FAIR数据,走向FAIR社区采用7个步骤将之“FAIR化”:1检索非FAIR数据——2分析检索到的数据——3定义语义模型——4使数据可链接——5分配许可证——6定义数据集的元数据——7部署FAIR数据资源

https://www.go-fair.org/wp-content/uploads/2017/11/FAIRificationProcess-1.png

W3C数据目录本体(DCAT)入门

11/3收到“W3C数据目录本体(DCAT)入门”网络会议(Webinar – Introduction to the W3C Data Catalog Ontology (DCAT))的邮件,看了是11/13零点的网会。由于前一天刚买好机票,确定11/10-13在海南旅游,不打算玩的时候还听网会,就没有注册,但邮件一直放在收件箱中没有处理,还打算有机会进一步了解。不料11/9上海出现一本地新冠肺炎病例,尽管那地方离我的活动区域有四五十公里(相当于到了江苏昆山),但由于之前一直关注各地疫情防控政策,推测很多地方极有可能小题大作,为免麻烦深夜退票取消了第2天的行程。于是11/10上午用通知上提供的折扣码免费注册了这个ASIS&T主办的DCMI网会。

提早一个多小时就打开网址,测试了网络,不料等会议开始,才弹出下载程序,下载龟速(会议时间近半仍未完成)。改看手机,倒是不必下载程序,但没有声音。所幸找到PPT可以下载,且手机下载速度较快,总算半夜没有白辛苦。第2天一早看PPT,备注中有详细解说,笔记见后。

先访问词表网站:

DCAT于2020-2-4发布了第2版,第1版6年前。粗略对照2个版本,类由7个增加到13个,属性有变化、仍有不少直接复用其他词表属性(仍以都柏林核心dct为主,增加大量prov本体)。

第2版类一览:类=复用词表(属性数量)

  • Catalog (7)、CatalogRecord (6)、Dataset (7)、Distribution (19)
  • ConceptScheme=skos (0)、Concept=skos (0)、Organization/Person=foaf (0)
  • 新增:
  • CatalogedResource (22)、DataService (3)
  • Relationship (2)、Role (0)=provPeriodOfTime(4)、Location(3)

DCAT2附录有与schema.org映射。既然这些属性schema.org都有,为什么需要DCAT?我想是因为它提供了一个针对发布数据的很好框架。看会议PPT,强化了以上初步印象。

W3C数据目录本体入门(笔记)

Introduction to the W3C Data Catalog Ontology (DCAT)

会议介绍主讲Peter Winstanley(Semantic Arts公司的本体专家,W3C Dataset Exchange Working Group共同主席),但PPT上没有署名。

PPT末称会议录音、PPT及后续调查会在48小时内提供。

【背景】“开放数据”运动——互联网的发展意味着信息分发的边际成本接近于零,因此,主张免费获取出自公共钱包支付费用的信息(在某些情况下,这不侵犯个人隐私、 政治敏感度或商业机密性)的观点变得势不可挡。 这在许多国家催生了立法,许多组织致力于推广“开放数据”,并帮助公共和非营利组织的人们将数据公开。(slide 4)

【历史】在此背景下,Vassilios Peristeras等从2006/2007年间开始研究使用RDF模型在网络上发布数据目录的框架,[2010前]作为W3C推荐标准发布。后为欧盟委员会创建了一个DCAT-AP[https://joinup.ec.europa.eu/release/dcat-ap-v11],也用于欧洲数据门户(European Data Portal, EDP),他还启动了其他2个应用纲要扩展:统计STAT/DCAT-AP和地理GEO/DCAT-AP。(slide 6-9)

【第1版(2014)】基于都柏林核心的类和谓词。包括4个类:dcat:Catalogue(数据目录),dcat:Dataset(数据集),dcat:CatalogRecord(目录记录=注册事件),dcat:Distribution(数据集的各种序列化的发布,如同作品具有载体表现)[另有第5个类foaf:Agent]。此外,搜索由许多可索引的文本字段完成,并使用SKOS概念来表征数据集[另2个类:skos:ConceptScheme和skos:Concept(合计7个类)]。(slide 10)

【应用纲要(AP)】对于主流用户社区(如欧盟委员会和欧盟成员国)而言,基本的DCAT词表本身是不够的,但是以应用纲要的形式添加了其他几个组成部分,这是一种非常具有竞争力的通用语言,用来描述数据集并促进其发现(slide 12)。此后,针对国家或垂直行业(如统计、地理空间、运输和地质学)开发了其他更专业的应用纲要(slide 13)。

  • DCAT-AP – https://joinup.ec.europa.eu/release/dcat-ap-v11
  • GeoDCAT-AP – https://joinup.ec.europa.eu/release/geodcat-ap-v10
  • StatDCAT-AP – https://joinup.ec.europa.eu/release/statdcat-ap-v100
  • DCAT-AP_IT – https://www.dati.gov.it/content/dcat-ap-it-v10-profilo-italiano-dcat-ap-0
  • DCAT-AP.de – https://www.dcat-ap.de/
  • DCAT-AP-NO – https://doc.difi.no/dcat-ap-no/
  • Transport-DCAT-AP – https://oasis.team/storage/app/media/O1.2%20TransportDCAT-AP%20and%20Controlled%20Vocs.pdf
  • EPOS-DCAT-AP – https://github.com/epos-eu/EPOS-DCAT-AP
  • DCAT-US – https://resources.data.gov/resources/dcat-us/
  • DCAT – Australia – https://toolkit.data.gov.au/Discovering_Metadata.html

【第2版(2020)】[2016/2017]从征求的用例中提炼出一组需求,形成第2版。优势:

  • [1] 放宽类和属性定义的约束,以促进术语和模块的重用。[对比keywork:第1版定义域dcat:Dataset,值域skos:Concept;第2版定义域无,值域rdfs:Literal]
  • [2-3] 新增超级类dcat:Resource(表示目录中无法包含的任何资产),下属dcat:Dataset、dcat:DataService(支持提供对数据资产访问的目录服务端点;新增)。
  • [4] 增加表示结构松散的目录的方式,其中数据集及其发行之间没有区别。
  • [5] 表示数据集来源和质量的方式的更多细节。
  • [6] DCAT词表与schema.org词表之间的对齐方式。(slide 14-15)

【示例】dcat:Catalog具有一些元数据和一组dcat:Dataset实例URI……(slide 16-19)

【如何使用】(slide 20-28)创建一个或多个dcat:Catalog实体;添加相关的元数据,包括:标识符,发布者详情,所用主题分类法,权利和政策(许可等)、使用如ODRL、CC或相关词表,创建、更新日期等;添加目录内容——数据集、数据服务、发布等。……

  • (文件集)在dcat:Dataset只是一个“文件袋”(没有“发布”意义)的情况下,可以使用dct:relation表示各种文件;
  • (链接数据集到出版物)可以使用dct:isReferencedBy将数据集与出版物相关;
  • (质量控制)利用W3C数据质量词表(Data Quality Vocabulary, dqv:)

【版本控制】在第3版解决。查看讨论:https://github.com/w3c/dxwg/wiki/Material-for-a-SPRINT-on-Versioning

【为什么选择DCAT】有其他用于描述/编目数据集的词表(如:欧洲通用研究信息格式CERIFDataCiteISO19115-1地理信息、Schema.org),但DCAT可以在整个数据集目录之间提供通用语言,并且专注于在Web上发布,是一个互操作标准。(slide 30)

【参考资料】(slide 32)

  • * https://www.w3.org/TR/vocab-dcat-2      W3C DCAT v2
  • * https://github.com/SEMICeu/DCAT-AP     SEMIC EU DCAT-AP work
  • * https://github.com/digst/DCAT-AP-DK      DCAT-AP-DK