科学数据管理的“FAIR原则”:可找寻、可访问、可交互、可再用

本周索引学会将召开国际会议,其中一个主旨报告提到FAIR原则,因为不曾听说,所以就查了查。
根据维基百科词条FAIR数据(FAIR data),FAIR是findability, accessibility, interoperability, and reusability的缩写(常会译作可查找、可访问,互操作和可重用)。2016年3月被提出,称FAIR是“科学数据管理的指导原则”,而使用FAIR作为首字母缩略词,使概念更方便讨论。在当年G20杭州峰会上,20国集团领导人发表声明,赞同将FAIR原则应用于研究。欧洲研究图书馆协会也提出了一份指南建议使用FAIR原则:“实施公平数据原则 – 图书馆的作用”。
在“中国网”上找到中英文对照的官方文件《二十国集团领导人杭州峰会公报(全文)》http://www.china.org.cn/chinese/2016-09/07/content_39250021.htm,相应中文如下:
……我们支持采取适当措施促进开放科学,推动在可找寻、可访问、可交互、可再用的原则下,提高获取公共财政资助的研究成果的便利性。
不知道对这个公报我们现在的态度是什么。关于“开放科学”,似乎很少用“可找寻、可访问、可交互、可再用”这个概念?对英美人,用FAIR或许很方便,对中国人不能用缩写就很不方便,这很不fair。
我能再吐槽下百度吗?只用上述4个词查,完全相关的只有百度知道上一条。加上FAIR,就多出好几条。完全不符合检索的查全原则嘛。

LIBER: Implementing FAIR Data Principles – The Role of Libraries
原文:https://libereurope.eu/wp-content/uploads/2017/12/LIBER-FAIR-Data.pdf
博文:The FAIR Data Principles are essential for libraries who want to foster and extend research data services (2017-12-8)
对想要推进研究数据服务的图书馆,FAIR数据原则是基础
什么是FAIR数据原则?为什么FAIR数据重要?图书馆如何开始?LIBER的研究数据管理工作组可以提供进一步建议与帮助。
图书馆如何开始?
向本地研究和IT人员推广FAIR原则;
将FAIR原则纳入数据管理计划和数字保存实践和政策;
寻求机会来策划、丰富、捕获和保存研究数据,这将有助于使数据可查找、可访问、可互操作和可重用。好的起点是个别研究人员收藏,或研究小组的数据收藏;
对主题和数据图书馆进行学科元数据、词表和工具的培训,以使数据FAIR;
鼓励研究人员使用体现FAIR原则的档案存储数据;
在您所在机构以FAIR原则来评估数据收藏和数据管理实践。

研究数据管理书目(2009-2017)

曾在博文“Data Curation:数据监护?数据保管?”(2011-5-22)中提及此书目,现在这个书目更新到了第9版,含2009-2017年著述:
Research Data Curation Bibliography / Charles W. Bailey, Jr. VERSION 9: 4/18/2018

近年国内 Data Curation 研究热度不减,CNKI收录文章在2016年达到峰值95篇,2017年第2高值73篇。查该术语翻译五花八门,大致有:管护、监管、监护、策管、策展、管理。以我的理解,在图情领域,Data Curation 约等于 Research Data Management (RDM),本书目中有大量文章含后一术语,比data curation更多,因此觉得不妨用“管理”一词更具包容性。

要做研究数据管理,这个书目是不错的参考源。
本书目收录750种精选英文文章、图书和技术报告,含访问链接,在不违反版权的情况下也包括摘要。内容涉及:研究数据创建、采访、元数据、出处、存储库、管理、政策、支持服务、资助机构要求、开放获取、同行评审、出版、引用、共享、重用和保存等主题。
比较可惜的是,书目是按作者字顺排序,没有对论著做简单的分类以方便浏览。也没有嵌入引文数或替代计量数值,辅助评估选择。

关于 data curation,本书目在导言中引用 Christopher A. Lee 和 Helen R. Tibbo 对 digital curation 的定义:
“digital curation涉及创作者和档案工作者的选择和评估,不断提供智力接入,冗余存储,数据转换,并且对于一些材料而言承诺长期保存。digital curation是管理(stewardship),提供认证数字数据和其他数字资产的可重复性和重复使用。开发值得信赖和耐用的数字储存库,声音元数据创建和捕获的原则,使用文件格式和数据编码的开放标准,以及提高信息管理素养,对于数字资源的长期使用和curation工作的成功都至关重要。

战略图书馆技术:当前现实与未来可能

Wiley于3月22日请Marshall Breeding做了一个网络报告,报告时长40多分钟,标题为:战略图书馆技术:当前现实与未来可能。会前需注册,现在视频应该是公开的:
Strategic Library Technologies – Current Realities and Future Possibilities

图书馆自动化系统】内容从图书馆自动化系统开始。有不少来自他的Library Technology Guides 网站数据作成的图表,比如:历年选择或放弃Symphony图书馆数量柱形图,2017年升级到Alma的图书馆之前所用系统饼图,澳大利亚公共图书馆所用系统分布饼图,多个系统的地理分布地图,自动化系统厂商员工数量统计等。
图书馆服务平台】也有他对图书馆自动化系统的总结。相对于原来图书馆集成系统(ILS或LAM)和图书馆服务平台(LSP)二分法,现在增加了介于两者之间的“进步ILS”。LSP只有3个,即OCLC的WorldShare、Alma和尚在开发中的FOLIO。其他如Sierra、SirsiDynix蓝云等都被归在中间这一类——尽管在“产品开发时间线图”中Sierra与其他LSP并列。从他总结的“资源管理模型”看,LSP与ILS/进步ILS的区别主要在于,其技术平台是多租户SaaS、具有知识库(电子馆藏与书目)、只通过API互操作(没有批传输)、采购方式是许可证。之前ILS与电子资源管理(ERM)是分列的,LSP将两者结合在一起。
支持研究与教学】如果说上面是现实,那么未来将超越LSP。报告指出,大学管理者不在意图书馆内部工作流程,LSP之后的技术与服务,要能让图书馆可以支持对大学有战略利益的领域,即研究与课程(教学)。新领域包括:研究数据管理,研究服务支持(展示研究与出版物、资助课题),教学支持(课程阅读列表、降低学生资料费用、版权管理)。(国内目前普遍比较重视研究服务支持即展示这一块(比如学者库),也体现了这一发展趋势)
学术出版转变】图书馆的上游,学术出版社有什么新服务?报告列举了3家企业及其相关工具:
Elsevier:引文库Scopus;索引6900万出版物;分析工具SciVal, PlumX;文献管理Mendeley;研究信息管理系统Pure;机构文章存储库bepress;科学协作网络SSRN
Digital Science:引文库Dimensions;索引8900万出版物;分析工具Altmetric;研究信息管理系统Symplectic;研究数据存储库FigShare
Clarivae:引文库Web of Science(6800万出版物);分析工具InSites;文献管理EndNote;期刊管理系统ScholarOne;同行评议追踪与识别Publons
没想到数字科学公司的引文库竟然数量最多,可谓后来居上。该公司为麦克米伦创立,孵化致力于科学工作流和研究生产力的初创公司如Symplectic、FigShare、Altmetric。