Dataverse:开源的研究数据存储库软件

Dataverse项目是一个开源的研究数据存储库软件,由哈佛大学的量化社会科学研究所(Institute for Quantitative Social Science, IQSS)开发,始于2006年。2016年6月刚发布4.4版,月底将发布4.5版。
网站首页面向有研究数据管理需求的各方,介绍不同的解决方案:
研究者:保存本人的研究数据。选择包括:本机构的存储库,或者Harvard Dataverse。
期刊:管理研究数据的提交、评审与发布,并与发表的文章在网站上同时显示。选择包括:使用Dataverse插件,向作者推荐存储库,建立期刊自己的存储库。
机构:需要托管研究数据,可以直接使用Harvard Dataverse,为本机构做定制;也可以自己安装Dataverse软件。
另外,作为一个开源软件,自然也希望开发者加入Dataverse开发者社区,贡献、集成与参与。

网站首页下部地图显示目前的19个安装,分布在欧洲、美洲和亚洲,其中包括中国大陆2家(北京大学、复旦大学)、香港1家(香港科技大学)。这3所大学研究数据平台的建立,图书馆也都起着重要作用。

——— Harvard Dataverse ——–
由哈佛图书馆和哈佛大学信息技术部门(HUIT)与IQSS协作建立,提供对研究数据的分享、引用、分析与保存,对全世界所有学科的所有科学数据开放。
目前有1688个库(Dataverse)、61860个数据集、33万多个文件。

———复旦大学社会科学数据平台(服务于本校研究人员)———
Fudan University Dataverse Network
Powered by the Dataverse Network Project v.3.3。布局同哈佛库的页面下部。
平台发展历程
复旦大学社会科学数据研究中心,在2012年经过广泛的调研包括对美国多所著名高校实地考察,最后决定和哈佛大学进行合作,2013年3月和哈佛大学的Dataverse Network系统签署了全面合作协议。复旦大学不仅是Dataverse Network的使用者,更是哈佛大学的合作伙伴,帮助共同推进Dataverse的国际化和新功能的开发。
复旦大学全面负责Dataverse中文版的研发和中国地区的宣传推广,2013年6月正式发布Dataverse汉化3.3版本,致力于为Dataverse中文版用户提供技术支持服务。

Dataverse项目博客2015年2月的博文(Featured Dataverse Repository: Fudan University):复旦大学平台2014年12月发布,收录复旦所属1319位研究者、5796个项目的4.6万个文件。文末致谢殷沈琴、张计龙。(这几年听过多次两位的相关报告)

——— 北京大学开放研究数据平台(面向全球开放)———
Peking Univeristy Open Research Data
Powered by Dataverse Project v.4.0(未出现在首页,仅在“关于”页)
目前有16个库(数据空间)、79个数据集。首页“精品数据空间”比较吸引眼球(布局近似哈佛库的页面上部)
简介(关于):
由北京大学图书馆、国家自然科学基金-北京大学管理科学数据中心、北京大学科研部、北京大学社科部联合主办和推出。
平台建设工作历时近两年。从2014年初开始,北京大学图书馆……进行前期调研和平台选型,并基于哈佛大学开源软件Dataverse搭建测试数据平台……相继完成了一系列工作,包括:元数据方案制定和改造,正式加入Datacite数据中心获取正式DOI,根据本地化需求进行系统功能设计和二次开发、制定平台章程和用户使用协议、研究数据的收集/整理/发布。2015年12月25日,平台Beta版开始上线运行。
平台不仅面向北大师生,也面向全国和国外,收录国内和国外、学界和非学界相关组织的优质科研数据。

——— 香港科技大学DataSpace@HKUST ———
Powered by Dataverse, © 2016 HKUST Library
3个库、4个数据集、98个文档,均发布于2015年。规模不大。

重量级图书馆关联数据项目LD4P获得资助

尽管近来关联数据(LD/LOD)的前途不断受到质疑,但在美国图书馆界却仍然欣欣向荣,新资助项目源源不断。今年LOD最大新闻:
4月22日,斯坦福大学图书馆宣布Linked Data for Production (LD4P)项目获得安德鲁梅隆基金150万美元资助。项目为期两年(2016-2018),斯坦福主持,哥伦比亚、康奈尔、哈佛、普林斯顿大学及美国国会图书馆(LC)6家机构协作。

Linked Data for Production (LD4P)
项目维基首页介绍:“LD4P是六个机构间的一项合作(哥伦比亚、康奈尔、哈佛、国会图书馆、普林斯顿和斯坦福大学),在安德鲁梅隆基金提供的150万美元支持下,开始转换技术服务生产流程至关联开放数据(LOD)。转换的第一阶段将致力于【1】开发生产元数据为公有LOD的能力,【2】扩展BIBFRAME本体以包含图书馆必须处理的众多资源格式,【3】更广泛图书馆社区的参与以确保一个可持续、可扩展的环境。”(编号为本人所加)

LD4P准备已久,今年初ALA仲冬会议的BIBFRAME更新论坛上,LD4P曾集体亮相,3家参与馆做相关报告:普林斯顿(德里达特藏)、哥伦比亚(艺术收藏品)和康奈尔(嘻哈音乐传单)。今年夏天ALA年会也会有相关报告。从项目时间表看,其他3家关注重点是:斯坦福(表演音乐)、哈佛(地图、动态图像)、LC(音像与录音、印刷图片与照片、一般馆藏、BIBFRAME 2.0)。
各家都会对BIBFRAME作出评估,并做必要扩展。项目背景对BIBFRAME有较多涉及。

项目维基很多内容还在建设中。列出的相关项目4个(其中3个为官方IMLS资助,1个为机构内部项目[梅隆基金资助项目]):
BIBFLOW和Linked Open Data for Special Collections(即伊得诺伊大学的BIBFRAME项目),介绍见后“参见”
Western Name Authority File 和 National Strategy for Shareable Local Name Authorities:2016年美国IMLS资助的2个关联开放数据项目,分别资助犹他大学5万美元、康奈尔大学9.8万余美元。

2014年安德鲁梅隆基金曾资助康奈尔主持的Linked Data for Libraries (LD4L)项目100万美元,哈佛和斯坦福3家大学协作,寻求开发新的基于关联数据的工具和方法,以更好地描述图书馆的学术信息资源。LD4L同样为期两年(2014-2016),斯坦福在新闻发布中称,“两项目将协同工作、相互促进各自目标”。
参见LD4L项目维基:Linked Data for Libraries (LD4L)

via [BIBFRAME] Linked Data for Production / by Philip E. Schreur. 2016-5-9

参见:
ALA 2016仲冬会议的BIBFRAME更新论坛(2016-1-29;对LD4P有简单介绍,其中提到后加入的第7家马里兰大学最终未列入)
“德里达图书馆”关联数据计划(2016-1-29;普林斯顿的LD4P)
伊利诺伊大学的BIBFRAME项目(2016-1-17)[并非前述项目]
推动关联数据应用:《数据技术新视界——与汤贝克面对面》参会记录(2015-5-6;将BIBFLOW列为当时的4个项目之一)
小河尘在书社会的日志:Bibflow简介(2015-05-08)

2016图书馆系统报告

5月2日,《2016图书馆系统报告:权力竞逐》在American Libraries网站发布。比Library Journal《2016图书馆系统风景线》 晚一个月发布,范围大致相同,叙述方式和内容略有不同,比如公司雇员人数LJ没有;开源系统方面也更丰富。

Library Systems Report 2016: Power plays / By Marshall Breeding (May 2, 2016)

个人感兴趣的几点:一是并购,原本最大的图书馆系统公司Ex Libris被收购后产品线进一步扩大,RFID领域Bibliotheca并购另一巨头3M;二是技术上基于Web的趋势,大型高校馆中意Web原生(云平台),小馆倾向于Web界面;三是Innovative公司Sierra销售状况,本报告比LJ报告要正面得多;四是高校图书馆ILS统计。

一、和LJ年度报告一样,并购是重要主题,以下仅记两个行业内大新闻:
1、2015年10月宣布、12月剑桥信息集团(CIG)旗下ProQuest完成并购Ex Libris。保留Ex Libris名称,且纳入ProQuest相关产品,包括Summon, SIPX, Ulrich, 360 Link等。正式称呼:Ex Libris, a ProQuest Company,像好多并购后的出版社。
2、2015年10月,Bibliotheca购入3M图书馆系统,完成全球两家最大RFID和自助服务公司的合并

二、走向基于WEB平台
大型高校馆欢迎Web原生、多租户平台(云平台)的系统,主要是Alma和WMS。大型公共图书馆未显出此种趋势,以Sierra、Polaris、Symphony、Horizon主导。
其他系统逐渐流行基于Web的员工界面,在K-12学校已成为标准。小公共图书馆对Biblionix全Web的Apollo显示相当大的兴趣。
原因:“技术架构本身不一定是内在要求,更多的是实施图书馆战略的手段。包括图书馆集团间深度协作以提高馆藏的影响,减少运行费用,在本地技术基础架构上花费更少资源,简化与管理其馆藏相关的流程。多租户平台兴起,是作为最能够支持这些战略的架构,但这些只是替代方法”。

三、Innovative的Sierra(参见:更换Millennium系统的选择,根据本报告更新)
1、销售
这一年,Millennium升级到Sierra令人印象深刻,同时也吸引到新的图书馆。2015年签下90个Sierra新合约:56个高校馆、20个公共馆、13个专业馆、1个联盟。其中76个是由Millennium升级。【同样是来自公司的数据,LJ统计表中Sierra只新增19个,难道是未计Millennium升级,只算新客户?按本报告数据,新客户是14个】
在更换Millennium选新ILS时,2015年大部分馆选择Sierra。166家中95家选择了Sierra【57%,流失71家】,尤其是公共馆,38家中28家选择Sierra【74%】。高校馆比例较小,52家用Sierra、31家用Alma、7家用WMS。
2、发展
Sierra采用令人印象深刻,主要来自现有用户由Millennium升级。有新客户,也有一小部分选择了竞争对手产品。总体上,客户数略有增加。
产品策略:从INNOPAC、Millennium到Sierra,以现有代码库和功能投入到新的架构和界面。相对于购买另一个厂商的新系统 ,此方法对图书馆意味着较少混乱的迁移过程、较低的费用。

四、高校图书馆用ILS
竞争有限:Alma主导, WMS进行某种程度的竞争, Sierra提供选择更传统的方法。
2015年,252所美国高校图书馆选择了新系统,其中171选Alma(68%),27选Sierra(11%),20选WMS,11选Koha,6个小馆移到Polaris。其中8个研究图书馆协会(ARL)成员均选择Alma。
以ARL作为大型高校图书馆的晴雨表,Ex Libris处于优势地位。68家ARL成员使用来自Ex Libris的资源管理产品【56%】:27家使用Voyager,25家使用Alma,16家使用Aleph。Innovative紧随其后,有31家ARL成员【26%】,其中18家使用Millennium,13家使用Sierra。SirsiDynix有19家【16%】,17家使用Symphony,2家使用Horizon。3家选择WMS。【本报告合计121个。按ARL统计,高校馆124个、非高校馆10个。】

———附:图书馆自动化系统年度报告———
以下报告主要从厂商获取信息,每年依据前一年数据(如2002版为2001年数据):
Library Journal,2002-2013,标题:Automation marketplace(每年4月1日) by Marshall Breeding
Library Journal,2014- ,标题:Library Systems Landscape(每年4月1日) by Matt Enis(2014年第1部分2015年第1部分2016年第1部分
American Libraries,2014- ,标题:Library Systems Report (2014年4月15日2015年5月1日2016年5月2日)by Marshall Breeding
Marshall Breeding撰写历年报告汇总:Library Technology Industry Reports

以下报告为面向图书馆的调查结果,由Marshall Breeding实施,数据与年份一致(2015版为2015年数据):
Library Technology Guides,2007-2015,标题:Library Automation Perceptions Reports。有交互版,可选择感兴趣的公司、产品,有针对性地查看。