科学数据管理的“FAIR原则”:可找寻、可访问、可交互、可再用

本周索引学会将召开国际会议,其中一个主旨报告提到FAIR原则,因为不曾听说,所以就查了查。
根据维基百科词条FAIR数据(FAIR data),FAIR是findability, accessibility, interoperability, and reusability的缩写(常会译作可查找、可访问,互操作和可重用)。2016年3月被提出,称FAIR是“科学数据管理的指导原则”,而使用FAIR作为首字母缩略词,使概念更方便讨论。在当年G20杭州峰会上,20国集团领导人发表声明,赞同将FAIR原则应用于研究。欧洲研究图书馆协会也提出了一份指南建议使用FAIR原则:“实施公平数据原则 – 图书馆的作用”。
在“中国网”上找到中英文对照的官方文件《二十国集团领导人杭州峰会公报(全文)》http://www.china.org.cn/chinese/2016-09/07/content_39250021.htm,相应中文如下:
……我们支持采取适当措施促进开放科学,推动在可找寻、可访问、可交互、可再用的原则下,提高获取公共财政资助的研究成果的便利性。
不知道对这个公报我们现在的态度是什么。关于“开放科学”,似乎很少用“可找寻、可访问、可交互、可再用”这个概念?对英美人,用FAIR或许很方便,对中国人不能用缩写就很不方便,这很不fair。
我能再吐槽下百度吗?只用上述4个词查,完全相关的只有百度知道上一条。加上FAIR,就多出好几条。完全不符合检索的查全原则嘛。

LIBER: Implementing FAIR Data Principles – The Role of Libraries
原文:https://libereurope.eu/wp-content/uploads/2017/12/LIBER-FAIR-Data.pdf
博文:The FAIR Data Principles are essential for libraries who want to foster and extend research data services (2017-12-8)
对想要推进研究数据服务的图书馆,FAIR数据原则是基础
什么是FAIR数据原则?为什么FAIR数据重要?图书馆如何开始?LIBER的研究数据管理工作组可以提供进一步建议与帮助。
图书馆如何开始?
向本地研究和IT人员推广FAIR原则;
将FAIR原则纳入数据管理计划和数字保存实践和政策;
寻求机会来策划、丰富、捕获和保存研究数据,这将有助于使数据可查找、可访问、可互操作和可重用。好的起点是个别研究人员收藏,或研究小组的数据收藏;
对主题和数据图书馆进行学科元数据、词表和工具的培训,以使数据FAIR;
鼓励研究人员使用体现FAIR原则的档案存储数据;
在您所在机构以FAIR原则来评估数据收藏和数据管理实践。

关联数据词表管理

美国国家信息标准组织(NISO)的《信息标准季刊》(ISQ)自2011年起转为开放获取期刊,过刊也逐步回溯上网提供。最新一期为特刊《图书馆档案馆博物馆关联数据》
Information Standards Quarterly. Vol. 24, Issue 2/3 (Spring/Summer 2012). ISSN 1041-0031
Topic: Linked Data for Libraries, Archives, and Museums

本期由纽约大学元数据服务馆员Corey Harper担任客座内容编辑,专题文章“关联数据词表管理”:
Dunsire, Gordon, Corey Harper, Diane Hillmann, and Jon Phipps. Linked Data Vocabulary Management: Infrastructure Support, Data Integration, and Interoperability. Information Standards Quarterly, 2012 Spring/Summer, 24(2/3):4-13.

对全文意思把握不住。大致理解是:得到应用的元数据词表越来越多,在关联数据环境下其对照crosswalk/映射mapping/校准alignment更为复杂,需要探讨其管理问题。
以下只摘录若干事实,小标题为自拟提示,非照录原文。

应用纲要
(p.5) 2000年最早公开提出:Heery, Rachel, and Manula Patel. Application Profiles: Mixing and Matching Metadata Schemas. Ariadne, issue 25, September 24, 2000 [从该文看,源于UKOLN的DESIRE项目,希望在DC-8上推广]
(p.6) 实践则早自1999年:UKOLN DESIRE元数据注册,欧盟委员会资助的Schemas Project及其后继者CORES。

元数据注册
(p.6) 上述工具以registries著称。2002年DCMI发布其自己的元数据注册,由Heery和Wagner创始开发,其工作激发了很多其他注册,包括“开放元数据注册”。当前版DCMI注册是日本元数据基础体系注册、JISC信息环境元数据体系注册的基础。
(p.7) DCMI注册社区成立于1999年,成为讨论元数据注册的开发、管理和功能需求的集中地。2009年,UKOLN联合DCMI注册社区,进行一项元数据注册用户和所有者的调查,确认当前词表管理与注册间互操作的系统实践和功能需求。调查结果未出版,文中提供部分图表。

开放元数据注册(OMR)
(p.6) 始于NSF资助的美国国家数字图书馆项目──NSDL注册。现在扩展到图书馆界,存有RDA词表,IFLA的ISBD、FR家族模型,MARC21的RDF实验版。目前正致力于词表映射。
(p.8) RDA命名空间创建于2008年。截至2012年7月,元素集和很多取值词表仍处于不定状态。但由于状态和开发史可见,允许实验应用。
RDA命名空间的开发直接刺激了IFLA方面考虑其标准在语义网使用的潜力,因为RDA基于FR家族。ISBD正开发一个DC应用纲要,说明一条构造良好的ISBD的需求,包括元素的必备性、可重复状态,集成元素为高级说明,及取值词表来源。IFLA还在考虑翻译元素集和取值词表的最佳实践,因为它运作于多语言环境,其活动有7种官方语言。部分ISBD和FR家族命名空间已由英语译为西班牙和克罗地亚语。
复用RDA元素被排斥[?],因为自然流程是由模型细化应用。反之,ISBD不复用FR元素,因为对两个标准间的语义关系还没有完全一致的认识。受到校准ISBD和RDA元素以改进互操作工作的激励,已经开始讨论在IFLA和其他社区元数据元素间映射不受约束的命名空间:Dunsire, Gordon. Unconstrained namespaces. In: IFLA Namespaces Technical Group, IFLA Classification and Indexing Newsletter, no.45 (June 2012)(PDF)

欧洲国家图书馆发布目录数据的RDF表述
(p.8) 复用更为领域中性的词表DC、BIBO、FOAF,如LIBRIS、BL、剑桥大学。德国国家图书馆复用DC、FOAF、SKOS及RDA词汇。
(p.9) 特别是剑桥开放元数据项目(COMET),把所有转换工具、代码、过程均置于开源许可下。

元数据映射举例
(p.9) 图3:(书目资源的)数量RDA本体图(ISBD、FRBR、RDA、BIBO、MARC21、DC)

词表“校准”(Alignment)和DCMI词汇管理社区
(p.11) Michael Bergman在DC-2010的主旨报告,从词表激增的势头没有缓和的迹象,看到了对词表校准、同参引(co-referencing)和互操作的新兴需求。对“校准”的关注在某种程度上类似于已有的、在基于记录(通常为XML)的元数据结构间开发对照表(crosswalk)。词汇校准,识别个别元数据元素间的对应及其他关系类型,帮助这些属性应用于其来源词表环境之外。
然而,开放关联数据环境概念的扩展,我们面临的情况比开始所见的更为复杂。……DC-2011会前会……导致了DCMI词汇管理社区的成立。

关联开放词汇项目(LOV)
(p.11-12) Bernard Vatant及其团队收集了现有属性词表信息,探索其相互间关系,如某个是否基于另一个,或者给予扩展、普遍化,或声明和另一词表的等价物。LOV项目的研究成果应用:关联开放数据词表之元数据推荐(Metadata Recommendations For Linked Open Data Vocabularies, version 1.1, 2012-8-19)

DC与Schemar.org映射
(p.12) Bernard也提出建议在DC属性和schema.org词表之间做映射,DCMI的一个工作组正采用GitHub管理这样一个映射原型集:DC – Schema.org Mappings [目前对应6个类、27个属性]

via NISO Press Release: NISO Publishes Themed Issue of Information Standards Quarterly on Linked Data for Libraries, Archives, and Museums (10 Sep 2012)

虚拟国际规范档数据集以ODC-By许可提供

虚拟国际规范档(VIAF)4月初成为OCLC的一项服务后,OCLC首席科学家Thomas B. Hickey在其博客Outgoing连续发布多项围绕VIAF的消息。此前博主已经有9个月未发博文,而在9个月前相当长一段时间的博文,也几乎都是关于VIAF的。要了解VIAF发展的历程,不可不看其博客。
本文标题就是其最新发布的消息:
VIAF Dataset (May 04, 2012)
VIAF数据集以ODC-By(开放数据共用-标示名称)许可提供,不影响其他以CC0(创作共用-公共域)许可发布的数据采用VIAF标识符,因为所用VIAF的URI即被视为致谢(By)。
鉴于VIAF的巨大数据量,其URI无疑会成为关联数据中的重要资源。
BTW,哈佛大学图书馆于4月22日发布其1200万条书目记录供下载,采用CC0协议,并得到OCLC认可(其中无疑有不少来自WorldCat的记录)。
via hangingtogether.org: Harvard bibliographic data released with prominent nod to OCLC (April 24th, 2012)

Uniform Titles in VIAF (April 23, 2012)
VIAF中加入统一题名,使得其规范记录的类型包括:个人名称、团体名称、地理名称(仅行政区名)和统一题名。

xA (April 16, 2012)
参见:xA:OCLC扩展虚拟国际规范档 (2012年4月18日)

VIAF Developments (April 09, 2012)
预告在2012年4月以ODC-by发布VIAF数据(看来滞后了几日)。为实现关联数据友好,数据描述以VoID(相互关联数据集词表)文档出版,并给出测试页。

参见:虚拟国际规范档移交OCLC (2012年4月5日)