年终学术:上图学会2014年12月双月讲座

年末会议接二连三,今天上午是上海市图书馆学会2014年12月双月学术讲座。会议通知星期二下午才上网,而且用主持人Keven的说法,年会也才开过,不料人气还是很高,报名人数超过预期的50人,因此换了一个略大的会场——事实上还有没在网上报名直接就来的,所以会场坐得比较满。报告时间每人一小时,可以讲得比较从容。

秦健教授讲《数据与数据服务:图书馆服务的延伸》,认为数据服务已是美国图书馆的新常态。
– 数据服务到底可以做什么?印象中近年谈得较多的就是data curation,国内也有图书馆开始尝试,今年上图学会年会主旨报告之一殷沈琴讲的就是复旦经验《高校科学数据监护的探索与实践》。
本报告的数据服务范围更宽些,涉及服务的变化:从数据管理到数据服务、从呈现到分析、从馆藏(collection)到产品(production)。换言之,让数据“活”起来。作为实例之一,介绍Peter Leonard,耶鲁大学图书馆专职做数字人文研究的图书馆员,利用现有的工具(包括Google的Book Ngram Viewer等),为人文科学挖掘大数据集(原文链接见下)。
– 一直很困惑图书馆未来到底能做什么,如果仍停留在提供馆藏上,在去中介化的趋势下未来真的不乐观。近年逐渐升温的学科馆员、嵌入式服务等等,也是为了应对这种现状。然而,学科馆员定位似乎很尴尬,在能做什么和用户需要什么之间很难找准位置。耶鲁的例子确属于“数字人文”领域,但看起来也是图书馆员(学科馆员)能做的。
当然,要做延伸服务,最重要的是人员,还需要接受培训。就国内而言,不说图书馆领导是不是有这方面的眼光,提供培训者恐怕也难以寻觅。
– 报告谈到数据资源领域一些术语的变化,指出术语变化显示观念改变,比如从数字馆藏(digital collection)到数字数据(digital data)——雪城大学的“数字图书馆”课程已改名“数字数据基础”。如我这般原来看这些术语没有什么感觉的,现在有了另外的视角,或者也可以用Google Book Ngram分析一下这些词的变化趋势——这是有墙的。秦教授每年回国,切身感受“墙”对做研究的损害,报告中另一个例子是纽约时报关联数据,也是有墙的。

戴着Google眼镜的张甲馆长讲《大数据再定义图书馆服务导向》,从他乘坐没有方向盘的Google无人驾驶汽车的体验开始,直观说明大数据分析。
张馆长身为图书信息中心主任,报告例子中不少是高校信息办或者信息网络中心做的数据分析,很有启发。图书馆长有双重身份者还有不少(比如以前的重大、现在的厦大),为图书馆与网络中心合作提供不少方便。报告中也有图书馆的例子——解放军医学图书馆案例。
不过听完报告,对于图书馆有没有大数据,或者对现在能够获取到的数据到底能做什么,还是未能了了(抱歉,悟性不够)。

秦健教授的数据服务,张甲馆长的大数据,针对的都是新形势(或者新常态)下的图书馆服务,对大家比较有吸引力。我的《书目用RDF词表与本体概况》则比较小众,原是为上图设想把CNMARC数据发布为RDF而准备的。虽然针对的是对该主题已经有所了解的人,但自己对这个主题的知识积累不足,原来假定是小范围交流,有些问题是想共同探讨的,没想到变成了公开讲座,要面对那么多人,心里还是有点发毛。最终一个人自说自话讲得还算顺利,希望现场听众也有所收获。
PPT已经上网,请移步上图学会网站“资源”,注册登录后下载

参见:
耶鲁的例子见今年IFLA年会文章:Peter Leonard. Mining large datasets for the humanities. IFLA WLIC : (2014).
早年黑Google的博文:Google实验室新品Books Ngram Viewer:数据的可靠性(2010年12月18日)

学术图书馆和研究数据服务:当前实践及未来计划

学术图书馆和研究数据服务:当前实践及未来计划──学院与研究图书馆协会白皮书

Academic Libraries and Research Data Services: Current Practices and Plans for the Future : An ACRL White Paper / by Carol Tenopir, Ben Birch, Suzie Allard. Association of College & Research Libraries, June 2012 (54p. pdf)
三位作者来自田纳西大学信息科学学院信息与交流研究中心。
对大学成员馆的调查结果分析,截止时间2012.1.25,基本反映20111年底的状况。有大量的统计数表,附调查表。
全部351所图书馆、回收221所(回收率63%),包括大专、本科、博士三个层次的大学(p.14)。
研究数据服务、数据管理、数据保管(Data Curation),差不多可视为同义语吧。
读概要后的感觉是:
1、资助机构的要求,应该是研究数据服务能否发展的关键促进因素。(目前来说,我国还没有这个促进因素,但应该也不会太遥远了)
2、图书馆应具有危机意识。研究型图书馆的生存和发展,取决于其是否是所在机构的知识创造过程中的一环。以往图书馆的主要责任是提供信息获取,现在及未来则将增加数据管理。(在国内,大学中的档案馆、网络中心等机构可能在这方面成为图书馆的竞争者。)
3、图书馆员有能力做数据管理吗?p.12图2列出了数据生命周期(data life cycle)各个阶段,图书馆员考虑的问题。
Figure 2
The librarian ponders whether she has the background, skills, and education to provide RDS.
via ACRL insider: Academic Libraries and Research Data Services (November 26th, 2012)
———Executive summary(译文)———-
随着科学变得越来越协作性、强化数据和计算性,学术研究人员正面临一系列数据管理需求。这些需求与资助方要求数据管理计划两相结合,对大学的研究数据服务而言,是既有需求又势在必行。对校园中的研究数据服务活动,学术图书馆可能是一个理想的中心,为学术图书馆成为本机构知识创造周期中更积极的参与者,提供了一个独特的机会。最近学术图书馆界已把数据保管(data curation)作为2012年的十大趋势之一。一些学术图书馆已经参与这些活动,其他馆正考察可以提供一系列研究数据服务的途径。
本研究调查美国和加拿大的学院和研究图书馆协会(ACRL)的学术图书馆成员,对两国学术图书馆研究数据服务的现状与未来计划提供一个基准评估。
主要发现与观察:
– 目前只有小部分学术图书馆提供研究数据服务(RDS),但1/4到1/3的学术图书馆计划在未来两年内提供一些服务
– 最常提供或计划的RDS是创建Web指南、帮助定位数据。这是传统图书馆实践在新环境中的延伸。
– 较大的或授予博士学位机构中的图书馆,更易于提供一系列信息/咨询类服务,尽管各种规模机构中都有一些学术图书馆计划未来提供某些RDS。其中一些服务,扩大了图书馆在知识创造过程中的作用。
– 较大的或授予博士学位机构中的图书馆,更易于提供或计划提供技术的/亲手实践的RDS。但是,大专或本科机构的图书馆应当考虑提供一些这类服务,因为图书馆有必要帮助机构满足其任务目标,如促进学生进入四年制大学和研究生学习。[这也是RDS?]
– 接受国家科学基金(NSF)资助学校的图书馆更易于提供或计划提供各种类型的RDS。这说明,资助机构要求正推动RDS需求。随着预算决策趋向承担更大责任,更多机构会说明数据管理责任,因此学校的RDA需求会增长。如果图书馆不积极参与提供这些服务,其他单位会被逼介入服务,从而会削弱图书馆作为研究过程重要伙伴的形象。
– 极少学校图书馆负责发展研究数据政策。能够作为思想交换库(clearinghouse of ideas)、为建立这些政策提供专家知识,是图书馆成为知识创建过程成员的一个机会。
– 在RDS方面常与学校其他单位协作,通常是研究办公室。对图书馆在知识创造过程中发挥重要作用、帮助支持图书馆对校园的价值,这种协作是一个极好的方式。[研究办公室相当于我们的科研处、社科处吧]
– 提供RDS最通常的战略是重新安排现有图书馆员工工作。这也需要得到员工专业发展的支持,这样他们可以获得所需的专业知识,以提供完整的RDS。
– 提供RDS的图书馆大多数已经或计划重新安排现有员工工作以承担这些责任。这可能是财政要求,可以此为由获得附加预算设置主要与RDS有关的新职位。本研究针对科学,而其他学科也开始越来越协作性、强化数据和计算化,因此RDS服务会跨越学科边界,服务更范围的研究者。
– 图书馆依赖会议或培训班向其员工提供RDS培训。图书馆需要一些机构支持,送其馆员参加专业发展,专业组织继续提供这类培训很重要。对领先的图书馆而言,有机会与同行或其他相关图书馆创建导师关系,帮助向更多馆员传播专业知识。
———-正文提及的两个工具网站———-
DataOne: Resource(数据管理工具)

数据保管:图书馆能做什么?

此次出行回程时,邻座的教授在飞机上处理自己拍摄的某次野外考察照片。处理完后他还给我介绍了些其他文件夹中的照片,大部分照片都没有重新命名──对他来说含义及价值一目了然,对其他人则需要他做解释了。问了他照片本身是否带地理信息,回答是肯定的。
后来聊到我国在资料上的落后,我举了军舰南海搁浅的例子。据他说我国刚拼成了领海海底资料,其中有些地区的图还是1880年代外国人留下的,这么多年海底会有很大改变的。
再谈及原始资料及其保存的重要性。他说到有很多原始资料,做完某项研究后就不知所终,其他人要做作同样的研究,就得重复做;而有些历史资料,是无法重复的;资料还常随研究人员的退休、离职等原因消失,有时能联系上本人,且本人也愿意提供,有时就没那么好运气了。
问到数据的长期保存,他本人用刻光盘(包括过几年再复刻一次)、大容量移动硬盘方式备份;手上还有早至七八十年代的照片需要数字化保存,但目前扫描后精度比不上原始照片;单位里也有早年从美国买来的缩微遥感图片,现在要花大价钱才能获取的(近年的可在网上免费得到),这就是历史资料的价值了。

因之想到向他了解在我国,图书馆做数据保管(Data Curation)的可能性:
1、老师有没有这样的意愿?比如会不会考虑不想让其他人获取自己的资料?
答曰:保存资料的需求是有的,而保密则不单是本人的考虑,国家也对某些原始资料的发布有所限制。
2、图书馆有没有可能做数据保管?
答曰:原始图片的价值在于对图片的说明,这需要专业人员来做,而专业人员通常更愿意把时间花在做更有价值的事情上。他们单位设立了信息中心,由研究能力欠缺者专事资料搜集整理。
──显然,图书馆很难拥有这么专业的知识。一般的专业背景应该是远远不够的。

对前一个问题,想到在目前的环境下,图书馆能不能像接受图书捐赠那样,在教师退休或不再从事研究以后,接受其电脑中的研究资料,并开放,以使物尽其用?
后一个问题,很多院系恐怕并未像他们那样有专门的信息中心,资料室所做也没涉及到机读资料,图书馆有拓展的空间。但缺乏深入的专业知识,对想要从事数据保管工作的图书馆,始终是不可回避、或许也是无解的问题?

图书馆的资源收集存在危机,而独有的原始资料,一需要深入的揭示,二也需要积累,其价值才会逐渐显现的。从图书馆方面来说,其效果显现会相当的慢。虽然图书馆危机论四起,但那不是将来的事吗?所以动力怕也是不足的。而真的事到临头,却又不及积累……
──其实问题的关键的是,国家层面没有OA的强制政策(甚至还对“保密”有很高的要求)。转录“Data Curation:数据监护?数据保管?”(2011年5月22日)中的一段笔记:
美国这方面有加速的趋势,并不是教授本人有这方面的需求,而是提供研究基金的机构如NSF对数据保管提出要求,教授不得不了解如何让数据被别人共享,而大学管理层也有这方面的压力。开放存取在美国已经是自上而下的要求,在中国的管理层还没有考虑到这一层。一旦走到这一步,中国的发展也会很快,但图书馆恐怕也需要努力,才能参与进去,毕竟档案馆也会是很有力的竞争者。