学术图书馆和研究数据服务:当前实践及未来计划

学术图书馆和研究数据服务:当前实践及未来计划──学院与研究图书馆协会白皮书

Academic Libraries and Research Data Services: Current Practices and Plans for the Future : An ACRL White Paper / by Carol Tenopir, Ben Birch, Suzie Allard. Association of College & Research Libraries, June 2012 (54p. pdf)
三位作者来自田纳西大学信息科学学院信息与交流研究中心。
对大学成员馆的调查结果分析,截止时间2012.1.25,基本反映20111年底的状况。有大量的统计数表,附调查表。
全部351所图书馆、回收221所(回收率63%),包括大专、本科、博士三个层次的大学(p.14)。
研究数据服务、数据管理、数据保管(Data Curation),差不多可视为同义语吧。
读概要后的感觉是:
1、资助机构的要求,应该是研究数据服务能否发展的关键促进因素。(目前来说,我国还没有这个促进因素,但应该也不会太遥远了)
2、图书馆应具有危机意识。研究型图书馆的生存和发展,取决于其是否是所在机构的知识创造过程中的一环。以往图书馆的主要责任是提供信息获取,现在及未来则将增加数据管理。(在国内,大学中的档案馆、网络中心等机构可能在这方面成为图书馆的竞争者。)
3、图书馆员有能力做数据管理吗?p.12图2列出了数据生命周期(data life cycle)各个阶段,图书馆员考虑的问题。
Figure 2
The librarian ponders whether she has the background, skills, and education to provide RDS.
via ACRL insider: Academic Libraries and Research Data Services (November 26th, 2012)
———Executive summary(译文)———-
随着科学变得越来越协作性、强化数据和计算性,学术研究人员正面临一系列数据管理需求。这些需求与资助方要求数据管理计划两相结合,对大学的研究数据服务而言,是既有需求又势在必行。对校园中的研究数据服务活动,学术图书馆可能是一个理想的中心,为学术图书馆成为本机构知识创造周期中更积极的参与者,提供了一个独特的机会。最近学术图书馆界已把数据保管(data curation)作为2012年的十大趋势之一。一些学术图书馆已经参与这些活动,其他馆正考察可以提供一系列研究数据服务的途径。
本研究调查美国和加拿大的学院和研究图书馆协会(ACRL)的学术图书馆成员,对两国学术图书馆研究数据服务的现状与未来计划提供一个基准评估。
主要发现与观察:
– 目前只有小部分学术图书馆提供研究数据服务(RDS),但1/4到1/3的学术图书馆计划在未来两年内提供一些服务
– 最常提供或计划的RDS是创建Web指南、帮助定位数据。这是传统图书馆实践在新环境中的延伸。
– 较大的或授予博士学位机构中的图书馆,更易于提供一系列信息/咨询类服务,尽管各种规模机构中都有一些学术图书馆计划未来提供某些RDS。其中一些服务,扩大了图书馆在知识创造过程中的作用。
– 较大的或授予博士学位机构中的图书馆,更易于提供或计划提供技术的/亲手实践的RDS。但是,大专或本科机构的图书馆应当考虑提供一些这类服务,因为图书馆有必要帮助机构满足其任务目标,如促进学生进入四年制大学和研究生学习。[这也是RDS?]
– 接受国家科学基金(NSF)资助学校的图书馆更易于提供或计划提供各种类型的RDS。这说明,资助机构要求正推动RDS需求。随着预算决策趋向承担更大责任,更多机构会说明数据管理责任,因此学校的RDA需求会增长。如果图书馆不积极参与提供这些服务,其他单位会被逼介入服务,从而会削弱图书馆作为研究过程重要伙伴的形象。
– 极少学校图书馆负责发展研究数据政策。能够作为思想交换库(clearinghouse of ideas)、为建立这些政策提供专家知识,是图书馆成为知识创建过程成员的一个机会。
– 在RDS方面常与学校其他单位协作,通常是研究办公室。对图书馆在知识创造过程中发挥重要作用、帮助支持图书馆对校园的价值,这种协作是一个极好的方式。[研究办公室相当于我们的科研处、社科处吧]
– 提供RDS最通常的战略是重新安排现有图书馆员工工作。这也需要得到员工专业发展的支持,这样他们可以获得所需的专业知识,以提供完整的RDS。
– 提供RDS的图书馆大多数已经或计划重新安排现有员工工作以承担这些责任。这可能是财政要求,可以此为由获得附加预算设置主要与RDS有关的新职位。本研究针对科学,而其他学科也开始越来越协作性、强化数据和计算化,因此RDS服务会跨越学科边界,服务更范围的研究者。
– 图书馆依赖会议或培训班向其员工提供RDS培训。图书馆需要一些机构支持,送其馆员参加专业发展,专业组织继续提供这类培训很重要。对领先的图书馆而言,有机会与同行或其他相关图书馆创建导师关系,帮助向更多馆员传播专业知识。
———-正文提及的两个工具网站———-
DataOne: Resource(数据管理工具)

数据保管:图书馆能做什么?

此次出行回程时,邻座的教授在飞机上处理自己拍摄的某次野外考察照片。处理完后他还给我介绍了些其他文件夹中的照片,大部分照片都没有重新命名──对他来说含义及价值一目了然,对其他人则需要他做解释了。问了他照片本身是否带地理信息,回答是肯定的。
后来聊到我国在资料上的落后,我举了军舰南海搁浅的例子。据他说我国刚拼成了领海海底资料,其中有些地区的图还是1880年代外国人留下的,这么多年海底会有很大改变的。
再谈及原始资料及其保存的重要性。他说到有很多原始资料,做完某项研究后就不知所终,其他人要做作同样的研究,就得重复做;而有些历史资料,是无法重复的;资料还常随研究人员的退休、离职等原因消失,有时能联系上本人,且本人也愿意提供,有时就没那么好运气了。
问到数据的长期保存,他本人用刻光盘(包括过几年再复刻一次)、大容量移动硬盘方式备份;手上还有早至七八十年代的照片需要数字化保存,但目前扫描后精度比不上原始照片;单位里也有早年从美国买来的缩微遥感图片,现在要花大价钱才能获取的(近年的可在网上免费得到),这就是历史资料的价值了。

因之想到向他了解在我国,图书馆做数据保管(Data Curation)的可能性:
1、老师有没有这样的意愿?比如会不会考虑不想让其他人获取自己的资料?
答曰:保存资料的需求是有的,而保密则不单是本人的考虑,国家也对某些原始资料的发布有所限制。
2、图书馆有没有可能做数据保管?
答曰:原始图片的价值在于对图片的说明,这需要专业人员来做,而专业人员通常更愿意把时间花在做更有价值的事情上。他们单位设立了信息中心,由研究能力欠缺者专事资料搜集整理。
──显然,图书馆很难拥有这么专业的知识。一般的专业背景应该是远远不够的。

对前一个问题,想到在目前的环境下,图书馆能不能像接受图书捐赠那样,在教师退休或不再从事研究以后,接受其电脑中的研究资料,并开放,以使物尽其用?
后一个问题,很多院系恐怕并未像他们那样有专门的信息中心,资料室所做也没涉及到机读资料,图书馆有拓展的空间。但缺乏深入的专业知识,对想要从事数据保管工作的图书馆,始终是不可回避、或许也是无解的问题?

图书馆的资源收集存在危机,而独有的原始资料,一需要深入的揭示,二也需要积累,其价值才会逐渐显现的。从图书馆方面来说,其效果显现会相当的慢。虽然图书馆危机论四起,但那不是将来的事吗?所以动力怕也是不足的。而真的事到临头,却又不及积累……
──其实问题的关键的是,国家层面没有OA的强制政策(甚至还对“保密”有很高的要求)。转录“Data Curation:数据监护?数据保管?”(2011年5月22日)中的一段笔记:
美国这方面有加速的趋势,并不是教授本人有这方面的需求,而是提供研究基金的机构如NSF对数据保管提出要求,教授不得不了解如何让数据被别人共享,而大学管理层也有这方面的压力。开放存取在美国已经是自上而下的要求,在中国的管理层还没有考虑到这一层。一旦走到这一步,中国的发展也会很快,但图书馆恐怕也需要努力,才能参与进去,毕竟档案馆也会是很有力的竞争者。

上图关联数据技术与应用研讨班参加记

2012年7月20-22日,在上海图书馆举办了“从文献编目到知识编码:关联数据技术与应用”专题研讨班。
本次研讨班与会者120多人,不乏如来自中信所、国科图的关联数据高手,也有业内资深专家,还包括如北大、深大馆长(想起十多天前在北京的RDA培训,也曾遇到深大馆长)──当然这些馆长本身也是专家。NSTL的超级科技词表STKOS项目组来了19位(来自不同单位),深大、厦大、国图、深圳职业技术学院等也都有多人参加(非会议官方信息,仅就本人接触得知)。

从研讨班日程可以看到,会议内容涉及了关联数据从理论与基本知识,到发布与消费的方方面面──平台和工具(如查询语言、可视化软件),案例及可用资源,知识产权等。
我的题目是《RDA的实施与本地化》(Slideshare,目前被墙),感觉与会议主题不是很搭,得到K师、夏MM及远洋师的启发与帮助,也仔细看了与会者提问集锦,尽可能使内容有针对性,侧重RDA元素集及词汇表的注册,也涉及MARC、ISBD、FR系列元数据注册,在远洋师的提示下,在开讲前加上了WorldCat关联数据所用schema.org的图书馆扩展。这些在设计关联书目数据时,都是重要的备选项。

———-用关联数据做什么(一家之言)———-
自己对关联数据本身所知不多,一直觉得发布关联书目数据应该是国家图书馆、大型联合目录的事,一般图书馆没有什么必要。不过前些天为某刊审一篇稿,是用本体加关联数据解决单个图书馆中各种异构资源silo问题的,发现自己的想法或许并不正确。今天曾蕾老师的“联合仓储数据做成可关联元数据的方法及案例”中有一个近似的例子,不过LODE-BD项目联合的是性质相同的书目数据。对于有百万以上书目数据、加上其他复杂资源的图书馆,这件事过于宏大,只能待技术成熟,至少有最佳实践后再考虑。

于是兴趣点就在除发布书目数据外,一般图书馆还能用关联数据做些什么事情。首先自然是消费,将关联数据mashup到OPAC等(具体内容及方式待探索),会议的收获是了解了更多的消费内容与方式(包括可视化)。
另外在听会中,了解到关联数据在揭示关系方面的功能,忽然悟到,除了单纯的发布和消费外,或许更有意思的是“发布+消费”方式,即以关联数据形式发布特色数据,进而揭示出隐藏的关系,乃至以可视化方式展示。想到学位论文数据库就是个很好的数据源,可以由元数据中的导师信息,揭示出师承关系──硕导、博导、同门等等。

———-会议照片———-
会议办得相当用心。会议注册时设计了提问,了解与会者的需求;会议PPT及相关资料在报到时随U盘发送;最后阶段的unconference,不知道是不是首次引入国内图书馆界?

[update 2012-7-23] 上图搭建利用RelFinder可视化展现关系的平台:

http://lod.library.sh.cn/relfinder/(点击看毛泽东和林彪的关系图

还有:


第一次收到专为会议制作的杯子:关联数据的五星排行。拿着天天喝茶,让关联数据深深地印入头脑中。


雨师席地而坐,时刻准备着为夏MM做助教──会场两个显示屏,一个放PPT,另一个用来实时访问网站做演示。

另外为会上分发了为60周年馆庆制作的《上海市中心图书馆一卡通分布图册》,印有各馆基本信息的二维码,提供的链接是发布为关联数据的各中心图书馆页面(访问网址:http://data.libnet.sh.cn:8080/)。再次体会到上图那种遵循标准的素质,比如采用vcard格式,而不是自定义的。

(图片来自CHUX的新浪微博)

———-会议资料链接———-

研讨班日程安排(将链接最终版PPT)
FOAF制作指南
关联数据讨论组邮件列表:(lldchina@groups.163.com)刚建立,欢迎所有感兴趣者加入