剑桥大学机构库分析

OpenDOAR中收录的机构库,以DSpace@Cambridge最大,共收录超过19万条记录。在OpenDOAR收录库中仅有10%记录条数超过1万条的背景下(其中还包括不少非机构库),为什么DSpace@Cambridge会有如此杰出表现?(统计见:OpenDOAR的机构库统计

先看看它收录什么?What may be deposited?

由剑桥大学成员创建或拥有的研究成果及其他学术内容。例如:

◎ research papers 研究文章

◎ reports 报告

◎ articles (pre-and postprints) 发表论文(预印本或后印本)

◎ conference papers 会议文章

◎ technical reports 技术报告

◎ data sets 数据集

◎ multimedia files 多媒体文件

◎ images 图片

◎ learning objects 学习物品

◎ administrative material 管理资料

◎ any other material that is relevant to any particular subject 与任何特定主题有关的任何其他资料

再看“使用案例”Use cases

研究论文──高能物理

一个研究小组希望联机维护其预印本系列,该主题领域的标准发布方法是使用通用主题库。为了不完全依赖一个提供者,小组决定同时在剑桥机构库中保存一个本地副本,因为小组觉得“本地保管者比远程保管者有更强的拥有与责任意识”。

研究成果具有开放获取副本,也给了该小组一种遵守研究资助机构要求的机制,使受公共资助的研究文章可以免费获取。所有研究文章由小组秘书上传。

http://www.dspace.cam.ac.uk/handle/1810/198342

视频──社会人类学

一位人类学教授使用视频媒介进行研究。他收集了大量素材,例如他拍摄佛教圣地,或者日本学校的近视的视力测试。他也存档其工作人员与当地人的交流,以及人类学家间的谈话。

他希望与学生及他所在领域更广泛的公众共享这些资料,他也希望这些资料能安全保存供将来使用。作为一个人类学家,他认识到,不仅是他的研究内容,他在现场得到的事实以及他所使用的方法,对未来研究也都是有益的。 他存放资料到DSpace@Cambridge,给自己的资料找到了一个安全的家,一种简单的与公众分享的机制──并且是免费的。

http://www.dspace.cam.ac.uk/handle/1810/23

图书──哲学

一位哲学教授希望与世界共享其思想。他出版了图书,但书已绝版。他觉得把书放在个人网页并让Google检索是有益的。他和出版商解决了版权,在DSpace@Cambridge上存放许可的版本,并链接到他的个人网页,这增加了他的思想在世界哲学界的曝光度。在DSpace@Cambridge中创建了他的收藏后,他也加了其他内容,包括他的就职演讲的电台广播及文字稿。

他认为电子存档服务对资料的长久保存与获取相当重要,否则一旦“我过世、因之我的网站也报销”后,这些对本专业有益的内容就会消失。 http://people.pwf.cam.ac.uk/dhm11/

http://www.dspace.cam.ac.uk/handle/1810/273

图片──斯科特极地研究所

一个研究所得到一大笔资助,把其有价值的玻璃板收藏(?)转换为数字格式。生成的数字图像文件需要安全存储,同时资助条件也要求能让公众获取。由于这是该机构的重要收藏,他们希望将其作为网站的突出特性。

该研究所存放其数字文件到DSpace@Cambridge,作为一个可靠的存储空间。同时他们使用SOAP Web服务,在自己网页中创建一个项目网页,通过自己的网站显示DSpace文件。

该研究所馆员说:“由于包括图片在内的各类数字资料对研究越来越重要,我们依赖DSpace@Cambridge提供便利与支持,使我们的数字馆藏能为最广泛受众获取。”

http://www.freezeframe.ac.uk/home/home

http://www.dspace.cam.ac.uk/handle/1810/183634

学位论文──材料科学

一位博士生希望发布其学位论文,以在全球研究界获得曝光。她要迅速做到,但也希望就其发现的一个方面发表一篇文章。她和导师谈,导师指点她到提供免费发布服务的机构库,以及该领域的出版社。

她咨询的机构库工作人员帮她弄清了整个过程,尤其是版权。她联系希望她发表文章的商业出版社,商量在机构库存放并先期发布其学位论文,得到了同意。 DSpace@Cambridge中建有各系学位论文馆藏,她在其中存放作品,也可以附加支持数据。

现在她把学位论文加到其出版物列表并附永久URL,她很高兴地发现,在Google中查她的姓名或标题关键词时,她的学位论文在检索结果中很靠前。她仍在写她的那篇文章,她已商定保留版权,将一同存放到机构库中。

http://www.dspace.cam.ac.uk/handle/1810/34689

支持数据──肿瘤

某系许多研究者希望共享以前发表的研究文章中支持发现的数据。出版社不管存储数据,这些数据在其本地服务器上占据了大量存储空间。

DSpace@Cambridge中建有一个保存数据的馆藏。它支持长期开放获取数据存档,不但支持已发表文章,也使得全世界其他研究者查询主要发现。它也使该系释放了本地服务器存储空间。

http://www.dspace.cam.ac.uk/handle/1810/217842

———-结论的分割线———-

首先,对机构库收录什么不划地为牢。看它收录内容的最后一条,基本就上无所不包了。

第二,提供者有分享的意愿。不管是来自一个小组还是个人。

第三,有政策支持。英国要求公共资助的研究成果能让公众免费获取。

第四,作为一个信息保存机构,剑桥大学图书馆值得信赖。

第五,采用恰当的技术,为提供者提供良好的服务。最基本的,有一个固定URL可以做链接;高级的,可以通过SOAP(或其他Web服务),在信息提供者网站上方便地展现存放在DSpace中的内容。

OpenDOAR的机构库统计

    已经有好几年,一直觉得机构库已是明日黄花,虽然看着数量不少,但库规模大的不多。最近因种种原因,又重新拾起来看。
    开放存取库名录(OpenDOAR)是了解总体情况的很好入口。网站首页突出显示目前收录超过1800家。曾记下2006年2月5日时为324家,看统计图,2006年以后似乎发展势头很好,一直在平稳向上。

查找
可以按主题领域内容类别(文章、图书、会议、数据集、学习对象、多媒体、专利、参考资源、软件、特殊、学位论文、未出版)、库类型(集合、学科、政府、机构)、国家语种软件6种途径交叉查询,每种在查询下拉框中都标明了数量。
按库类型,属于机构库的为1481个

√ 库内容搜索:采用Google定制搜索,而非OAI收割。试下来查不到结果,难道都拒绝Google机器人访问?

√ 库列表:按洲别、国家浏览。方便了解各大洲、各国情况。

统计
可以组合出各种统计图表,缺省的是世界范围的。
OpenDOAR统计一览
    从收录条数看,超过5万的有36个库(2%),其中很多不是机构库,如首位的ERIC(130万条)、第3位的PubMed Central(80万条)、第5位的arXiv(60万多条);也有一些应该是大学机构库,如排名14的英国剑桥大学DSpace@Cambridge(19万多条)、排名19的比利时根特大学学术书目与机构档案(12万条)。
在所有1815个库中,收录1万条以上的共184个库(10%)、5千条以上的共315个库(17%)、1千条以上的共771个库(42%)、5百条以上的共987个库(54%)──不到5百条的611个库(占1/3),还有216个库没有标明收录条数。

———-机构库软件———-
    机构库软件是DSpace(665)一家独大(超过1/3),Eprints(297)其次(近1/6),其后依次是Digital Commons(79),OPUS(54),余下都不超过30,Greenstone(24)第6位,听说过的还有ContentDM(17),Fedora(16),DigiTool(15),竟然还有WordPress(1)。

    最近常被推荐Drupal,有4家采用。查了下,加拿大爱德华王子岛大学的IslandScholar是规模最大的(10142条),说明是Drupal+Fedora,没有OAI-PMH网址。
    IslandScholar看内容是典型的大学机构库。有简单的技术说明(Technical Components),抄录如下:
1. Fedora (ver 2.2.4)
* Lucene – Indexing/searching
* MySQL – Database
* Mulgara – Resource Index
* XACML – Security
2. RuleEngine Framework – Rules for conversion processes
* OpenOffice conversion engine
* Searchable PDF
3. Drupal – ver 5.12
* igital Repository Module
** OpenSource module for connectivity  to FEDORA
** developed by UPEI
* Faculty Authentication with UPEI Credentials
** LDAP Module
* Book Module – Automatic Book menu generation
* Path Module – renaming of URL’s
* SpamSpam Module – obfuscates email addresses
* Printer Friendly Pages
4. Discovery/acquisition of Published Copy
* Sherpa/Romeo -auto-connects to display publisher permissions info for articles
* COINS support
** LibX UPEI Edition
* OpenURL
5. Refworks
* Compiling Collections
* Data Cleanup
* Creation of XML for import into FEDORA.
6. Programming Languages used
* PHP
* XML
* Java
* JavaScript
7. Operating System/Hardware
* SLEZ 10
* Dell PowerEdge
** Dual Quad Core CPU’s
** 16GB RAM

———-链接———-
从数字看开放存取(Open access) (2006-2-8)

中美数图研讨班(4)·机构库,看起来很美 (2007年5月27日)

知道你已经在做机构库了吗——摘评一份详尽的IR调查报告 (2007年5月28日)

国际机构库调查出版 (2007年11月14日)

台湾机构典藏(TAIR) (2008年7月25日)

香港大学投千万建“全民共享”学术库 (2010年06月07日)

天一阁古籍数字资源库

书社会里老姜转人民网消息“宁波天一阁古籍全面实现数字化转换 向公众开放”(2010年12月08日),称“所藏近3万册古籍全面实现了数字化载体转换”。内容包括:“阁藏明代科举录370种,有72%是海内孤本;现存的271种明代地方志中,孤本量亦占164种之多,天一阁自2008年以来入选的第一、二、三批‘国家珍贵古籍名录’84部全部囊括其中,所有宁波历代方志、近代学者稿抄本……”,“馆藏的500余部家谱,包括100余个姓氏的家谱……”。更重要的是,“此次古籍数字化通过网络平台的开通,天一阁首次将自己的目录资源在网上公布,读者可以进入网站迅捷查询,也可以浏览、编辑、下载网上的免费资源,给各界读者带来了极大地便利。”
以往在看到类似介绍后去访问网站,失望的时候居多,很多时候是限馆内上网、外网不能使用,也有时是宣传了还没有正式开放。此次倒没有失望,Google到天一阁网站,就进了古籍数字资源库。免费注册,登录后可以浏览图书,目前开放访问共712种,应该不是全部。因为不懂古籍,所以不知道这712种是否属于馆藏精品。
试用一遍,可用性和社会化方面都做得相当不错;检索方面有待改进。
使用权限:
·馆内用户可以输入用户名和密码直接登录,可以浏览和下载古籍。
·新注册用户先注册后,获取用户名和密码,可以正常浏览权限,没有下载古籍权限,如需权限可请求博物馆方在后台变更权限。
检索功能:
1、检索途径:全部、卷端题名、主要责任者、主题、典藏号、出版者、版本类别
2、高级检索:除基本检索途径组合外,还有全文检索、批注检索(用户批注也提供检索!)
全文检索:显示命中题名一览;点击题名,显示某书所有命中片断,命中词为红色(不依页码序,排序方式不明),可直接跳转到命中页。
存在问题:古籍常在每页折口(不知道专业名称)版心处都有题名,导致题名中有检索字时,会出现大量命中片断,如果有其他命中结果,需要在大量结果中筛选。
侧栏功能:
最近浏览(个性化功能)
最近检索(个性化功能)
古籍分类
浏览功能:
1、全部浏览(排序方式不明)
2、古籍分类:侧栏的经、史、子、集导航,可点击其下的二级分类浏览
3、热门浏览(社会化功能)
书目信息:
1、一览表信息:书封(部分为真实封面)、题名、主要责任者
题名、责任者无链接检索功能。
2、细览信息:标识符、序列(所有册次)、主要责任者、主要责任者所属年代、主要责任者责任方式、馆藏地址(天一阁)、典藏号(如:善137)、版本类别(如:刻本)
细览页:
本书所有分册(可直接点击浏览全文)
目录(每种书所有分册目录,可按级别伸缩,点击直接跳转到全文相应页面)
本书精彩批注(读者在书内所加批注,社会化功能)
读者评论(对整书的评论,社会化功能)
按钮:在线浏览、收藏(个性化功能)
原文浏览页面:
页面为flash,Loading比较慢(最近我家网速不好),翻页效果可媲美iBook
部分图书有全文阅读、影印阅读和对照阅读三种选项(全文阅读似为做过OCR的,但全文搜索仍无反应)
目录
放大/缩小(图像)
批注、划线及线条颜色、选词(个性化/社会化功能:批注后共享,没有不公开选项;线条不能保存;“选词”在影印或全文阅读时没有,仅在对照阅读时出现,但只对影印页面有效,选中的词作用不明)
全屏
全文搜索(未起作用)
选择册次(逐种阅览,较一般逐册方式更合理)
用户中心(个性化功能):
下载(最近浏览)
收藏
点评
批注
书架(与收藏相同?)
检索历史(最近检索)
天一阁古籍数字资源库·对照阅读

[update 2010-12-9]中国广播网消息:天一阁藏书走向网络 全球读者可在线阅读(2010-12-09):“天一阁现有藏书30万册,其中有不少古籍孤本入选国家珍贵古籍名录。这次实现数字化的古籍共有3万册,全部为天一阁的镇馆之宝”。