康奈尔大学的研究数据管理服务

远洋师在书社会专业探讨区转贴了印第安那大学E-Science馆员的招聘新闻(ZT: E-Science Librarian招聘),并提供了该校的数据管理计划(Data Management Plans)链接。

目前来说,一些发达国家的公共研究资助部门要求资助项目的数据公开,这是OA与图书馆参与研究数据保存必不可少的前提。虽然这些前提在吾国尚不存在,但如果有一天条件具备了,图书馆是不是就能够胜任呢?毕竟科学数据与图书馆传统的文献差别极大。因之在远洋师的贴下提问:“如果学校行政对研究数据管理有要求,图书馆该如何做?有没有可以推荐的模式?”秦健老师推荐康奈尔,称“有很多创新,过去几年有许多关于这方面的项目,是走在前面的高校之一”。依秦老师提供的链接,做笔记。

康奈尔大学研究数据管理服务组 Research Data Management Service

同印第安那大学一样,康奈尔大学这方面工作的很重要前提是美国国家科学基金NSF从2011年开始的新政策,要求所有资助项目有一个数据管理计划。印第安那大学的相关文件存在图书馆的DSpace库中,而康奈尔大学的服务组从网址及页面看,并不是一个图书馆的项目,但图书馆是参与者。

———-关于———-

研究数据管理服务组的目标是尽可能使研究者获取所需服务简单化:

>向研究者提供一套连贯的服务

> 开发统一网页,提供一些通用信息,针对数据管理规划、校内现有服务,以及资助项目中用于数据管理计划的标准语言。

> 提供单点联系信息,研究者在需要时可得到专业帮助。

该小组由研究高级副教务长及图书馆馆长共同负责,并有一个教师组成的咨询委员会。

———-服务———-

康奈尔大学的研究数据服务由多个单位提供,小组网站提供的是一站式目录(入口)。图书馆参与其中部分。

> 数据管理规范概述:满足资助要求的资源及一般规划指南

> 存储与备份服务:短期与长期存储 [无图书馆服务]

> 元数据:数据文献

> 数据分析:统计分析

> 协作工具:协作与交流支持

> 高性能计算:系统与存储、编程、数据库系统、计算分析、可视化等 [无图书馆服务]

> 隐私和信任:满足对保护隐私和信任的要求 [无图书馆服务]

> 知识产权与版权:理解与保护你的知识产权 [无图书馆服务]

> 数据出版:让数据供他人使用

———-康奈尔大学图书馆(CUL)提供的服务———-

> 元数据

>> CUGIR:康奈尔大学地理空间信息存储库(帮助通过CUGIR发布的数据准备元数据)[特色库]

>> 元数据与批处理服务:元数据咨询、制作、转换、规范定制及其他服务 [编目&元数据]

> 数据分析

>> 基本地理信息系统(GIS)Mann及Olin图书馆的讲座 [培训]

>> 统计软件:带统计软件的公共计算机实验室 [IC]

> 协作工具

>> RefWorks/RefShare:前者是参考文献管理软件,后者让RefWorks用户共享其参考文献数据库

>> 视频会议 [IC]

> 数据出版

>> CUGIR:康奈尔大学地理空间信息存储库(纽约州GIS数据)[特色库]

>> eCommons:康奈尔大学图书馆的永久数字存储库 [IR]

从以上服务看,基本上在特色数据建设、机构库、信息共享空间及培训等范围内。其中机构库范围比较大,实际上可以无所不包;编目扩大到元数据值得关注。

剑桥大学机构库分析

OpenDOAR中收录的机构库,以DSpace@Cambridge最大,共收录超过19万条记录。在OpenDOAR收录库中仅有10%记录条数超过1万条的背景下(其中还包括不少非机构库),为什么DSpace@Cambridge会有如此杰出表现?(统计见:OpenDOAR的机构库统计

先看看它收录什么?What may be deposited?

由剑桥大学成员创建或拥有的研究成果及其他学术内容。例如:

◎ research papers 研究文章

◎ reports 报告

◎ articles (pre-and postprints) 发表论文(预印本或后印本)

◎ conference papers 会议文章

◎ technical reports 技术报告

◎ data sets 数据集

◎ multimedia files 多媒体文件

◎ images 图片

◎ learning objects 学习物品

◎ administrative material 管理资料

◎ any other material that is relevant to any particular subject 与任何特定主题有关的任何其他资料

再看“使用案例”Use cases

研究论文──高能物理

一个研究小组希望联机维护其预印本系列,该主题领域的标准发布方法是使用通用主题库。为了不完全依赖一个提供者,小组决定同时在剑桥机构库中保存一个本地副本,因为小组觉得“本地保管者比远程保管者有更强的拥有与责任意识”。

研究成果具有开放获取副本,也给了该小组一种遵守研究资助机构要求的机制,使受公共资助的研究文章可以免费获取。所有研究文章由小组秘书上传。

http://www.dspace.cam.ac.uk/handle/1810/198342

视频──社会人类学

一位人类学教授使用视频媒介进行研究。他收集了大量素材,例如他拍摄佛教圣地,或者日本学校的近视的视力测试。他也存档其工作人员与当地人的交流,以及人类学家间的谈话。

他希望与学生及他所在领域更广泛的公众共享这些资料,他也希望这些资料能安全保存供将来使用。作为一个人类学家,他认识到,不仅是他的研究内容,他在现场得到的事实以及他所使用的方法,对未来研究也都是有益的。 他存放资料到DSpace@Cambridge,给自己的资料找到了一个安全的家,一种简单的与公众分享的机制──并且是免费的。

http://www.dspace.cam.ac.uk/handle/1810/23

图书──哲学

一位哲学教授希望与世界共享其思想。他出版了图书,但书已绝版。他觉得把书放在个人网页并让Google检索是有益的。他和出版商解决了版权,在DSpace@Cambridge上存放许可的版本,并链接到他的个人网页,这增加了他的思想在世界哲学界的曝光度。在DSpace@Cambridge中创建了他的收藏后,他也加了其他内容,包括他的就职演讲的电台广播及文字稿。

他认为电子存档服务对资料的长久保存与获取相当重要,否则一旦“我过世、因之我的网站也报销”后,这些对本专业有益的内容就会消失。 http://people.pwf.cam.ac.uk/dhm11/

http://www.dspace.cam.ac.uk/handle/1810/273

图片──斯科特极地研究所

一个研究所得到一大笔资助,把其有价值的玻璃板收藏(?)转换为数字格式。生成的数字图像文件需要安全存储,同时资助条件也要求能让公众获取。由于这是该机构的重要收藏,他们希望将其作为网站的突出特性。

该研究所存放其数字文件到DSpace@Cambridge,作为一个可靠的存储空间。同时他们使用SOAP Web服务,在自己网页中创建一个项目网页,通过自己的网站显示DSpace文件。

该研究所馆员说:“由于包括图片在内的各类数字资料对研究越来越重要,我们依赖DSpace@Cambridge提供便利与支持,使我们的数字馆藏能为最广泛受众获取。”

http://www.freezeframe.ac.uk/home/home

http://www.dspace.cam.ac.uk/handle/1810/183634

学位论文──材料科学

一位博士生希望发布其学位论文,以在全球研究界获得曝光。她要迅速做到,但也希望就其发现的一个方面发表一篇文章。她和导师谈,导师指点她到提供免费发布服务的机构库,以及该领域的出版社。

她咨询的机构库工作人员帮她弄清了整个过程,尤其是版权。她联系希望她发表文章的商业出版社,商量在机构库存放并先期发布其学位论文,得到了同意。 DSpace@Cambridge中建有各系学位论文馆藏,她在其中存放作品,也可以附加支持数据。

现在她把学位论文加到其出版物列表并附永久URL,她很高兴地发现,在Google中查她的姓名或标题关键词时,她的学位论文在检索结果中很靠前。她仍在写她的那篇文章,她已商定保留版权,将一同存放到机构库中。

http://www.dspace.cam.ac.uk/handle/1810/34689

支持数据──肿瘤

某系许多研究者希望共享以前发表的研究文章中支持发现的数据。出版社不管存储数据,这些数据在其本地服务器上占据了大量存储空间。

DSpace@Cambridge中建有一个保存数据的馆藏。它支持长期开放获取数据存档,不但支持已发表文章,也使得全世界其他研究者查询主要发现。它也使该系释放了本地服务器存储空间。

http://www.dspace.cam.ac.uk/handle/1810/217842

———-结论的分割线———-

首先,对机构库收录什么不划地为牢。看它收录内容的最后一条,基本就上无所不包了。

第二,提供者有分享的意愿。不管是来自一个小组还是个人。

第三,有政策支持。英国要求公共资助的研究成果能让公众免费获取。

第四,作为一个信息保存机构,剑桥大学图书馆值得信赖。

第五,采用恰当的技术,为提供者提供良好的服务。最基本的,有一个固定URL可以做链接;高级的,可以通过SOAP(或其他Web服务),在信息提供者网站上方便地展现存放在DSpace中的内容。

OpenDOAR的机构库统计

    已经有好几年,一直觉得机构库已是明日黄花,虽然看着数量不少,但库规模大的不多。最近因种种原因,又重新拾起来看。
    开放存取库名录(OpenDOAR)是了解总体情况的很好入口。网站首页突出显示目前收录超过1800家。曾记下2006年2月5日时为324家,看统计图,2006年以后似乎发展势头很好,一直在平稳向上。

查找
可以按主题领域内容类别(文章、图书、会议、数据集、学习对象、多媒体、专利、参考资源、软件、特殊、学位论文、未出版)、库类型(集合、学科、政府、机构)、国家语种软件6种途径交叉查询,每种在查询下拉框中都标明了数量。
按库类型,属于机构库的为1481个

√ 库内容搜索:采用Google定制搜索,而非OAI收割。试下来查不到结果,难道都拒绝Google机器人访问?

√ 库列表:按洲别、国家浏览。方便了解各大洲、各国情况。

统计
可以组合出各种统计图表,缺省的是世界范围的。
OpenDOAR统计一览
    从收录条数看,超过5万的有36个库(2%),其中很多不是机构库,如首位的ERIC(130万条)、第3位的PubMed Central(80万条)、第5位的arXiv(60万多条);也有一些应该是大学机构库,如排名14的英国剑桥大学DSpace@Cambridge(19万多条)、排名19的比利时根特大学学术书目与机构档案(12万条)。
在所有1815个库中,收录1万条以上的共184个库(10%)、5千条以上的共315个库(17%)、1千条以上的共771个库(42%)、5百条以上的共987个库(54%)──不到5百条的611个库(占1/3),还有216个库没有标明收录条数。

———-机构库软件———-
    机构库软件是DSpace(665)一家独大(超过1/3),Eprints(297)其次(近1/6),其后依次是Digital Commons(79),OPUS(54),余下都不超过30,Greenstone(24)第6位,听说过的还有ContentDM(17),Fedora(16),DigiTool(15),竟然还有WordPress(1)。

    最近常被推荐Drupal,有4家采用。查了下,加拿大爱德华王子岛大学的IslandScholar是规模最大的(10142条),说明是Drupal+Fedora,没有OAI-PMH网址。
    IslandScholar看内容是典型的大学机构库。有简单的技术说明(Technical Components),抄录如下:
1. Fedora (ver 2.2.4)
* Lucene – Indexing/searching
* MySQL – Database
* Mulgara – Resource Index
* XACML – Security
2. RuleEngine Framework – Rules for conversion processes
* OpenOffice conversion engine
* Searchable PDF
3. Drupal – ver 5.12
* igital Repository Module
** OpenSource module for connectivity  to FEDORA
** developed by UPEI
* Faculty Authentication with UPEI Credentials
** LDAP Module
* Book Module – Automatic Book menu generation
* Path Module – renaming of URL’s
* SpamSpam Module – obfuscates email addresses
* Printer Friendly Pages
4. Discovery/acquisition of Published Copy
* Sherpa/Romeo -auto-connects to display publisher permissions info for articles
* COINS support
** LibX UPEI Edition
* OpenURL
5. Refworks
* Compiling Collections
* Data Cleanup
* Creation of XML for import into FEDORA.
6. Programming Languages used
* PHP
* XML
* Java
* JavaScript
7. Operating System/Hardware
* SLEZ 10
* Dell PowerEdge
** Dual Quad Core CPU’s
** 16GB RAM

———-链接———-
从数字看开放存取(Open access) (2006-2-8)

中美数图研讨班(4)·机构库,看起来很美 (2007年5月27日)

知道你已经在做机构库了吗——摘评一份详尽的IR调查报告 (2007年5月28日)

国际机构库调查出版 (2007年11月14日)

台湾机构典藏(TAIR) (2008年7月25日)

香港大学投千万建“全民共享”学术库 (2010年06月07日)