研究数据管理的兴起,源于对科学研究“可重复性”的要求。所谓“可重复性”(维基百科),指整个研究可以由本人或他人独立重现。对于越来越多的研究,公开发布分析数据及计算机处理代码等研究数据,成为可重复的必要条件。
近年来,美国很多资助机构要求项目申请者同时提交数据管理计划。美国信息标准组织(NISO)最近开始发布《NISO入门丛书》,为研究人员提供研究数据管理的初步知识,包括工具、资源、最佳实践等。
第一种《研究数据管理》9月已经发布,下一种将涉及元数据和关联数据。
Research Data Management / by Carly Strasser. NISO, 2015. 23p. (NISO Primer Series, v.1) ISBN 978-1-937522-65-0.
Via NISO Newsline, September 2015: NISO Publishes New Primer on Scientific Data Management
———-《研究数据管理》摘译 ———-
导言
从事研究的方法在最近二十年中已经发生了剧烈的变化。新方法、新工具(软件、硬件、仪器、设备)、新数据来源,以及通过因特网不断增长的全球研究的连接性,意味着全球研究者正以前所未有的步伐前进。然而,随着这种范式转换而来的是重大挑战,最显著的是研究的可重复性、方法与流程的透明性。
面对21世纪研究的挑战,需要可靠的研究数据管理。通过仔细规划、记录和保存数据,可重复性和研究数据透明性的目标很容易满足。进一步,良好管理的数据更易于使用和重用,给予研究者更多协作、资助者更大投资回报。本入门将覆盖研究数据管理基础,目标是帮助研究者及其支持者成为更好的数据管家。
规划数据管理
……在收集第一份数据前,研究者应当花时间仔细考虑:
– 如何记录数据?使用什么元数据?对数据、文件、样本等使用什么命名方案?
– 需要什么人力、软件和硬件以有效管理数据?
– 谁负责确保在项目进程中数据管理保持优先?
– 数据最终存储在哪里?谁能获取?数据使用和重用的政策是什么?用谁的资源?
– 什么时候数据不再有用、可以被剔除?
———-《研究数据管理》目次 ———-
导论
规划数据管理
– 数据管理计划(Data management plans, DMP) (数据描述、标准、政策和过程、存档和保存、所需资源)
– DMP最佳实践(设计命名方案、设计电子表格、创建元数据集计划、建立备份策略)
– DMP作为活着的文件
– DMP人员
记录研究数据
– 元数据(非正式元数据、正式(标准)元数据)
– 记录软件
– 记录流程(非正式流程、正式流程、流程软件、计算机仿真)
管理
– 数据集管理和使用协议(版权和所有权、特有权利、声明数据权利的法律机制、敏感数据、共享最佳实践)
– 数据存储、备份和安全(备份、版本控制、云存储)
保存
– 保存最佳实践
– 仓储(特定学科仓储、通用仓储、选择仓储、仓储软件)
使用和重用
– 数据集的标识和链接(标识符、与数据引用相关的更复杂问题、引用)
– 发布数据(可获得、可引用、可验证)
– 数据发布模型
– 信用和激励(当前体制、替代计量、数据信用)
结论
附录A:资源
– 一般资源(创建DMP工具、数据管理入门、培训材料)
– 正文中参考的项目与软件(EML、FGDC19115、版本控制、软件、许可、存储、仓储、首创计划-研究数据联盟RDA/FORCE11、标识符、参考文献管理)