科学数据管理的“FAIR原则”及其实施

【FAIR原则】https://www.go-fair.org/fair-principles/

2016年,Mark D. Wilkinson等在《Scientific Data》上发表 The FAIR Guiding Principles for scientific data management and stewardship( https://doi.org/10.1038/sdata.2016.18),提出科学数据管理的“FAIR指导原则”,即改善数字资产的可查找性(Findability)、可获取性/可访问性(Accessibility)、互操作性(Interoperability)和重用性(Reusability)。原则强调机器可操作性,即计算系统在没有或最少人为干预的情况下查找、获取、互操作和重用数据的能力。

FAIR原则涉及三种类型的实体:数据(或任何数字对象)、元数据(有关该数字对象的信息)和基础架构(如注册、搜索引擎)。原则如下:

  • F 可查找性
  • (重复)使用数据的第一步是找到它们。对人和计算机来说,元数据和数据都应该易于找到。机器可读的元数据对于自动发现数据集和服务至关重要,因此这是“FAIR化流程”的重要组成部分。
  • F1、(元)数据被分配一个全局唯一且持久的标识符
  • F2、用丰富的元数据(由下面的R1定义)描述数据
  • F3、元数据清晰明确地包含了它们描述的数据的标识符
  • F4、(元)数据在可搜索资源中注册或索引
  • A 可获取性
  • 一旦用户找到所需的数据,她/他就需要知道如何获取它们,可能包括身份验证和授权。
  • A1、(元)数据可使用标准化的通信协议通过其标识符进行检索
  • A1.1、协议是开放、免费的并且可以普遍实施
  • A1.2、协议允许在必要时进行身份验证和授权过程
  • A2、即使数据不再可用,也可以获取元数据
  • I 互操作性
  • 可互操作数据通常需要与其他数据集成。此外,数据需要与应用或工作流进行互操作,以进行分析、存储和处理。
  • I1、(元)数据使用一种形式化、可获取、共享和广泛适用的语言来表示知识。
  • I2、(元)数据使用符合FAIR原则的词表
  • I3、(元)数据包括对其他(元)数据的合格引用
  • R 重用性
  • FAIR的最终目标是优化数据的重用。为此,应详细描述元数据和数据,以便可以在不同的设置中复制和/或组合它们。
  • R1、(元)数据以多种准确且相关的属性进行丰富的描述
  • R1.1、(元)数据使用明确且可获取的数据使用许可证发布
  • R1.2、(元)数据与详细出处关联
  • R1.3、(元)数据符合领域相关的社区标准

走向FAIR社区https://www.go-fair.org/how-to-go-fair/

FAIR原则没有停留在学术论文中。自2018年以来,GO FAIR社区一直在努力实施FAIR指导原则。这种集体努力形成了一个三点框架,该框架制定了必不可少的步骤,为的是实现最终目标——一个全球性的“FAIR数据和服务互联网”,其中的数据可用于计算机的可查找、可获取、可互操作和可重用(FAIR)。

https://www.go-fair.org/wp-content/uploads/2020/07/3-point-framework_text_icon-background-1.png
三点框架指:M4M(用于机器的元数据)FIP(FAIR实施纲要)FDP(FAIR数据点)。自2020年4月以来,有3个相应的工作组在开发方法、工具和文档。

定义元数据需求:M4M研讨会https://www.go-fair.org/how-to-go-fair/metadata-for-machines/

没有机器可操作的元数据就没有FAIR数据。自2018年10月以来,已举办了6次M4M研讨会,由领域专家与元数据专家(数据管家)组成团队,定义满足特定领域的FAIR数据需求的元数据需求。

FAIR化流程https://www.go-fair.org/fair-principles/fairification-process/

对于非FAIR数据,走向FAIR社区采用7个步骤将之“FAIR化”:1检索非FAIR数据——2分析检索到的数据——3定义语义模型——4使数据可链接——5分配许可证——6定义数据集的元数据——7部署FAIR数据资源

https://www.go-fair.org/wp-content/uploads/2017/11/FAIRificationProcess-1.png

研究合作如何表示?“贡献者角色分类”将成为NISO标准

合作已经成为当今科学研究常态,学术成果合作因此也是常见现象。同时为超越当前的“出版或出局”文化,至关重要的是确保研究人员对他们所做的所有工作给予认可而不仅仅是撰写论文。确保资助、管理数据、编写软件等对完成研究项目至关重要,但是这些角色通常更难确定,因而在评估研究人员的工作时,例如当他们申请晋升或任期或寻求资金时,这些角色往往会被忽略。

2012年惠康信托基金(Wellcome Trust)和哈佛大学共同举办了一个由学术、出版和基金三方面人士参加的研讨会,探索替代性的贡献说明模式。会后由生物医学期刊编辑为主的一个小组开发了一个贡献者角色受控词表(分类法)——即CRediT,含14个贡献者角色【见后】,经过试验项目的测试,其结果于2014年4月发表于Nature Communications

学术出版希望注明合作者的贡献,但非结构化的文本描述,难以管理。CRediT信息可以包含在研究成果(包括文章、书籍/书籍章节、数据集等)的元数据中。目前已有30多家出版机构采用CRediT,并且已将此分类法集成到多个手稿提交系统和其他研究人员平台中。

在CRediT实施中更要求出版者“使CRediT机器可读”——应以JATS xml v1.2 编码带有CRediT标签的贡献。CreDiT Taxonomy Guidelines列出了每种贡献的URL,其命名空间为:https://dictionary.casrai.org/Contributor_Roles/

CRediT这些年一直作为CASRAI的非正式标准进行管理。2019年12月美国国家信息标准化组织(NISO)宣布,已要求将CRediT分类法正式定为ANSI/NISO标准,并成立NISO常设委员会以继续进行教育和宣传工作并促进分类法的持续发展。

2020年4月23日,NISO宣布启动CRediT项目,正式制定和开发“贡献者角色分类法”(CRediT)作为ANSI/NISO标准。工作重点包括反映更广范围的研究贡献,以支持超出其最初STM(科学、技术和数学)的学科和主题领域

via NISO

NISO Launches Work on Contributor Role Taxonomy (CRediT) Initiative(2020-4-23)

Next Steps Toward Using CRediT for Credit(2019-12)

关于CRediT的更多信息见CASRAI页面:CRediT – Contributor Roles Taxonomy

  • 定义)CRediT(贡献者角色分类法)是一种高级分类法,包括14个角色,可以用来代表贡献者通常在科学学术成果中所扮演的角色。 这些角色描述了每个贡献者对学术成果的具体贡献。
  • (其他栏目)14个贡献者角色、贡献者角色定义、背景、益处、采用者、如何实施、相关链接、责任主席

—— CRediT:14个贡献者角色——

  • 1. Conceptualization 概念化:总体研究目标的制定或演化
  • 2. Data curation 数据管理:用于注释、清理数据和维护研究数据以供初次使用和以后重用的管理活动
  • 3. Formal analysis 形式分析:运用统计、数学、计算或其他形式技术来分析或综合研究数据
  • 4. Funding acquisition 资金获取:为导致出版的项目获得财务支持
  • 5. Investigation 调查:进行研究和调查过程,特别是进行实验或收集数据/证据
  • 6. Methodology 方法论:方法论的开发或设计;建立模型
  • 7. Project administration 项目管理:研究活动、计划和执行的管理和协调责任
  • 8. Resources 资源:提供研究材料、试剂、材料、患者、实验室样品、动物、仪器、计算资源或其他分析工具
  • 9. Software 软件:编程、软件开发;设计计算机程序;实施计算机代码和支持算法;测试现有代码组件
  • 10. Supervision 监督:对研究活动的计划和执行进行监督和领导责任,包括核心团队外部的指导
  • 11. Validation 验证:对结果/实验和其他研究成果的整体复制/可再现性进行验证,无论是作为活动的一部分还是独立的
  • 12. Visualization 可视化:准备、创建和/或演示已发表的作品,特别是可视化/数据演示
  • 13. Writing – original draft 撰写–初始草稿:准备、创作和/或介绍已发表的作品,特别是撰写初始草稿(包括实质性翻译)
  • 14. Writing – review and editing 写作–评审和编辑:初始研究小组的人员对已发表作品的准备、创作和/或展示,特别是批判性评审、评论或修订,包括出版前或出版后的阶段

联合国教科文组织数字档案馆

联合国教科文组织(UNESCO)数字档案馆,题为“数字化我们共同的UNESCO历史”(DIGITIZING OUR SHARED UNESCO HISTORY),如副标题“守护和促进教科文组织文献遗产的项目”(Project for safeguarding and promoting UNESCO’s documentary heritage),是对未收录于UNESDOC数字图书馆的UNESCO早年文献进行数字化保存并提供访问的项目。早年文献原以纸质文档、录像带、录音带、照片等物理方式保存。目前有5个馆藏:

一、IICI档案(国际智力合作研究所档案):4,661件(772,800图片)

  • IICI是国际联盟(国联,1920-1946年间与联合国相当的国际组织)国际智力合作委员会的常设秘书处,旨在促进科学家、研究人员、教师、艺术家和其他知识分子之间的国际文化/知识交流。IICI档案是两次世界大战之间主要知识分子国际合作的宝贵知识来源,其中包括爱因斯坦、居里夫人、姉崎正治、加夫列拉·米斯特拉尔、塔哈·侯赛因、泰戈尔和托马斯·曼。该研究所的档案资料于2017年列入联合国教科文组织世界记忆名录(Memory of the World Register)。
  • 1946年,其财产与档案由UNESCO继承。UNESCO档案馆AtoM目录中有规范记录,包括IICI的详细信息。

二、管理文档(教科文组织大会和执行局文件):目前14,571件(占全部560,000图片的57%)

  • 1940年代后期和1950年代教科文组织大会和执行局的文件,之后文档在:UNESDOC数字图书馆

三、电影和录像:206件

  • 16毫米胶卷电影,涵盖1940年代末期到1970年代联合国教科文组织的广泛活动,其中包括《所有可能学到的东西》(1949年)、《你与人权》(1950年)、《努比亚的宝藏》(1960年)和《地球的太阳》(1971年)。
  • UMATIC盒式磁带录像,1980年代开始的30小时的视频节目,包括“和平小提琴”、“只有一个地球”、“沙漠人”和“联合国教科文组织世界公共新闻”。估计还有2000个视频未处理。

四、录音:6,909件,8000小时

  • 历史录音集,包括1940年代末至1980年代UNESCO广播电台的报道,及其他独特的节目、访谈和录音,涵盖UNESCO活动的主要领域,被翻译成多种语言,并以“人民对人民说话”的口号向世界广播。

五、照片:5,048件(含照片说明,共10,177图片)

  • 展示1945年至今教科文组织活动的丰富和广度。记录联合国教科文组织分水岭时刻的精彩照片,例如“保护威尼斯市运动”和“保存努比亚古迹运动”为首次在网上发布。主题包括基础教育、青年、新闻、太空探索、海洋学以及其他反映联合国教科文组织机构记忆的内容。
  • 馆藏估计有170,000张照片,包括印刷品、底片和幻灯片。目前的5000多张照片是平衡了地理、文化和时间顺序多样性、并确保覆盖所有主要计划领域为标准,从印刷品子集中精选出来的。

近期新上线的是5000多件录音。从上述说明可知,管理文档、录像、照片都还有很多未数字化。

值得注意的是,在录音介绍中特别加上了“文化敏感性免责声明”,反映二战以来存在的用语变化:网站上可能存在包含文字和描述的内容和元数据,可能具有文化敏感性,在某些公共或社区环境中通常不可用。反映作者的态度或创建项目的时期的术语和注释在今天可能被认为是不合适的。

如需使用数字档案馆中资源,须特别注意其使用条款,在每条元数据的最后有链接。概而言之是三条:一复制内容需要书面许可,二不得保存内容及元数据到数字资产管理系统或数据库,三有法定豁免或合理使用。

—— 元数据 ——

看元数据,过于简单,且不同类型馆藏的类似字段名各异。大多只有题名、日期(IICI档案、录音称Date,视频称Year),有些有主题、描述(录音/录像称Themes/series、Description,电影称ID Theme、Subtheme、Country)。

几个馆藏的说明中提到了元数据问题:是从纸质清单和旧数据库中提取的,在某些情况下会丢失重要信息如日期等。照片背面的说明等在数字化图片中可以看到。

元数据最下面有反馈按钮(Add reaction)可以提供反馈。他们还将对照片启动一个众包子项目,目的是转录字幕,并丰富和标准化照片元数据。这将为照片添加背景,并使搜索更加轻松。

附:又一次发现自己手黑,竟然随便点一个查找结果(China),就发现了元数据错误:ONLY ONE EARTH – CHENGING FACE OF CHINA。显然应该是“Changing …”,于是使用了一次反馈功能。

这是一个1980年代四川农村制衣小企业的故事,业主李广铭[音]本身是个川剧丑旦。片中3次出现费孝通讲话,关于个体户经营,分别在8’56”-9’35″、16’10”-16’45″和23’14”-23’59″。元数据如果能揭示出这些信息,视频的有用性将大大提升——目前本条元数据对内容的揭示只有:ID Theme EN:Social Sciences;Subtheme EN:Nature;Country EN:China(以下英语主题,另有相应法语主题)。视频本身有部分字幕,应该可以用技术方法提取。