学术图书馆和研究数据服务:当前实践及未来计划──学院与研究图书馆协会白皮书
分类: 乱花迷眼
数据保管:图书馆能做什么?
此次出行回程时,邻座的教授在飞机上处理自己拍摄的某次野外考察照片。处理完后他还给我介绍了些其他文件夹中的照片,大部分照片都没有重新命名──对他来说含义及价值一目了然,对其他人则需要他做解释了。问了他照片本身是否带地理信息,回答是肯定的。
后来聊到我国在资料上的落后,我举了军舰南海搁浅的例子。据他说我国刚拼成了领海海底资料,其中有些地区的图还是1880年代外国人留下的,这么多年海底会有很大改变的。
再谈及原始资料及其保存的重要性。他说到有很多原始资料,做完某项研究后就不知所终,其他人要做作同样的研究,就得重复做;而有些历史资料,是无法重复的;资料还常随研究人员的退休、离职等原因消失,有时能联系上本人,且本人也愿意提供,有时就没那么好运气了。
问到数据的长期保存,他本人用刻光盘(包括过几年再复刻一次)、大容量移动硬盘方式备份;手上还有早至七八十年代的照片需要数字化保存,但目前扫描后精度比不上原始照片;单位里也有早年从美国买来的缩微遥感图片,现在要花大价钱才能获取的(近年的可在网上免费得到),这就是历史资料的价值了。
因之想到向他了解在我国,图书馆做数据保管(Data Curation)的可能性:
1、老师有没有这样的意愿?比如会不会考虑不想让其他人获取自己的资料?
答曰:保存资料的需求是有的,而保密则不单是本人的考虑,国家也对某些原始资料的发布有所限制。
2、图书馆有没有可能做数据保管?
答曰:原始图片的价值在于对图片的说明,这需要专业人员来做,而专业人员通常更愿意把时间花在做更有价值的事情上。他们单位设立了信息中心,由研究能力欠缺者专事资料搜集整理。
──显然,图书馆很难拥有这么专业的知识。一般的专业背景应该是远远不够的。
对前一个问题,想到在目前的环境下,图书馆能不能像接受图书捐赠那样,在教师退休或不再从事研究以后,接受其电脑中的研究资料,并开放,以使物尽其用?
后一个问题,很多院系恐怕并未像他们那样有专门的信息中心,资料室所做也没涉及到机读资料,图书馆有拓展的空间。但缺乏深入的专业知识,对想要从事数据保管工作的图书馆,始终是不可回避、或许也是无解的问题?
图书馆的资源收集存在危机,而独有的原始资料,一需要深入的揭示,二也需要积累,其价值才会逐渐显现的。从图书馆方面来说,其效果显现会相当的慢。虽然图书馆危机论四起,但那不是将来的事吗?所以动力怕也是不足的。而真的事到临头,却又不及积累……
──其实问题的关键的是,国家层面没有OA的强制政策(甚至还对“保密”有很高的要求)。转录“Data Curation:数据监护?数据保管?”(2011年5月22日)中的一段笔记:
美国这方面有加速的趋势,并不是教授本人有这方面的需求,而是提供研究基金的机构如NSF对数据保管提出要求,教授不得不了解如何让数据被别人共享,而大学管理层也有这方面的压力。开放存取在美国已经是自上而下的要求,在中国的管理层还没有考虑到这一层。一旦走到这一步,中国的发展也会很快,但图书馆恐怕也需要努力,才能参与进去,毕竟档案馆也会是很有力的竞争者。
上图关联数据技术与应用研讨班参加记
2012年7月20-22日,在上海图书馆举办了“从文献编目到知识编码:关联数据技术与应用”专题研讨班。
本次研讨班与会者120多人,不乏如来自中信所、国科图的关联数据高手,也有业内资深专家,还包括如北大、深大馆长(想起十多天前在北京的RDA培训,也曾遇到深大馆长)──当然这些馆长本身也是专家。NSTL的超级科技词表STKOS项目组来了19位(来自不同单位),深大、厦大、国图、深圳职业技术学院等也都有多人参加(非会议官方信息,仅就本人接触得知)。
从研讨班日程可以看到,会议内容涉及了关联数据从理论与基本知识,到发布与消费的方方面面──平台和工具(如查询语言、可视化软件),案例及可用资源,知识产权等。
我的题目是《RDA的实施与本地化》(Slideshare,目前被墙),感觉与会议主题不是很搭,得到K师、夏MM及远洋师的启发与帮助,也仔细看了与会者提问集锦,尽可能使内容有针对性,侧重RDA元素集及词汇表的注册,也涉及MARC、ISBD、FR系列元数据注册,在远洋师的提示下,在开讲前加上了WorldCat关联数据所用schema.org的图书馆扩展。这些在设计关联书目数据时,都是重要的备选项。
———-用关联数据做什么(一家之言)———-
自己对关联数据本身所知不多,一直觉得发布关联书目数据应该是国家图书馆、大型联合目录的事,一般图书馆没有什么必要。不过前些天为某刊审一篇稿,是用本体加关联数据解决单个图书馆中各种异构资源silo问题的,发现自己的想法或许并不正确。今天曾蕾老师的“联合仓储数据做成可关联元数据的方法及案例”中有一个近似的例子,不过LODE-BD项目联合的是性质相同的书目数据。对于有百万以上书目数据、加上其他复杂资源的图书馆,这件事过于宏大,只能待技术成熟,至少有最佳实践后再考虑。
于是兴趣点就在除发布书目数据外,一般图书馆还能用关联数据做些什么事情。首先自然是消费,将关联数据mashup到OPAC等(具体内容及方式待探索),会议的收获是了解了更多的消费内容与方式(包括可视化)。
另外在听会中,了解到关联数据在揭示关系方面的功能,忽然悟到,除了单纯的发布和消费外,或许更有意思的是“发布+消费”方式,即以关联数据形式发布特色数据,进而揭示出隐藏的关系,乃至以可视化方式展示。想到学位论文数据库就是个很好的数据源,可以由元数据中的导师信息,揭示出师承关系──硕导、博导、同门等等。
———-会议照片———-
会议办得相当用心。会议注册时设计了提问,了解与会者的需求;会议PPT及相关资料在报到时随U盘发送;最后阶段的unconference,不知道是不是首次引入国内图书馆界?
[update 2012-7-23] 上图搭建利用RelFinder可视化展现关系的平台:
http://lod.library.sh.cn/relfinder/(点击看毛泽东和林彪的关系图)
还有:
第一次收到专为会议制作的杯子:关联数据的五星排行。拿着天天喝茶,让关联数据深深地印入头脑中。
雨师席地而坐,时刻准备着为夏MM做助教──会场两个显示屏,一个放PPT,另一个用来实时访问网站做演示。
另外为会上分发了为60周年馆庆制作的《上海市中心图书馆一卡通分布图册》,印有各馆基本信息的二维码,提供的链接是发布为关联数据的各中心图书馆页面(访问网址:http://data.libnet.sh.cn:8080/)。再次体会到上图那种遵循标准的素质,比如采用vcard格式,而不是自定义的。
(图片来自CHUX的新浪微博)
———-会议资料链接———-
研讨班日程安排(将链接最终版PPT)
FOAF制作指南
关联数据讨论组邮件列表:(lldchina@groups.163.com)刚建立,欢迎所有感兴趣者加入