OpenDOAR的机构库统计

    已经有好几年,一直觉得机构库已是明日黄花,虽然看着数量不少,但库规模大的不多。最近因种种原因,又重新拾起来看。
    开放存取库名录(OpenDOAR)是了解总体情况的很好入口。网站首页突出显示目前收录超过1800家。曾记下2006年2月5日时为324家,看统计图,2006年以后似乎发展势头很好,一直在平稳向上。

查找
可以按主题领域内容类别(文章、图书、会议、数据集、学习对象、多媒体、专利、参考资源、软件、特殊、学位论文、未出版)、库类型(集合、学科、政府、机构)、国家语种软件6种途径交叉查询,每种在查询下拉框中都标明了数量。
按库类型,属于机构库的为1481个

√ 库内容搜索:采用Google定制搜索,而非OAI收割。试下来查不到结果,难道都拒绝Google机器人访问?

√ 库列表:按洲别、国家浏览。方便了解各大洲、各国情况。

统计
可以组合出各种统计图表,缺省的是世界范围的。
OpenDOAR统计一览
    从收录条数看,超过5万的有36个库(2%),其中很多不是机构库,如首位的ERIC(130万条)、第3位的PubMed Central(80万条)、第5位的arXiv(60万多条);也有一些应该是大学机构库,如排名14的英国剑桥大学DSpace@Cambridge(19万多条)、排名19的比利时根特大学学术书目与机构档案(12万条)。
在所有1815个库中,收录1万条以上的共184个库(10%)、5千条以上的共315个库(17%)、1千条以上的共771个库(42%)、5百条以上的共987个库(54%)──不到5百条的611个库(占1/3),还有216个库没有标明收录条数。

———-机构库软件———-
    机构库软件是DSpace(665)一家独大(超过1/3),Eprints(297)其次(近1/6),其后依次是Digital Commons(79),OPUS(54),余下都不超过30,Greenstone(24)第6位,听说过的还有ContentDM(17),Fedora(16),DigiTool(15),竟然还有WordPress(1)。

    最近常被推荐Drupal,有4家采用。查了下,加拿大爱德华王子岛大学的IslandScholar是规模最大的(10142条),说明是Drupal+Fedora,没有OAI-PMH网址。
    IslandScholar看内容是典型的大学机构库。有简单的技术说明(Technical Components),抄录如下:
1. Fedora (ver 2.2.4)
* Lucene – Indexing/searching
* MySQL – Database
* Mulgara – Resource Index
* XACML – Security
2. RuleEngine Framework – Rules for conversion processes
* OpenOffice conversion engine
* Searchable PDF
3. Drupal – ver 5.12
* igital Repository Module
** OpenSource module for connectivity  to FEDORA
** developed by UPEI
* Faculty Authentication with UPEI Credentials
** LDAP Module
* Book Module – Automatic Book menu generation
* Path Module – renaming of URL’s
* SpamSpam Module – obfuscates email addresses
* Printer Friendly Pages
4. Discovery/acquisition of Published Copy
* Sherpa/Romeo -auto-connects to display publisher permissions info for articles
* COINS support
** LibX UPEI Edition
* OpenURL
5. Refworks
* Compiling Collections
* Data Cleanup
* Creation of XML for import into FEDORA.
6. Programming Languages used
* PHP
* XML
* Java
* JavaScript
7. Operating System/Hardware
* SLEZ 10
* Dell PowerEdge
** Dual Quad Core CPU’s
** 16GB RAM

———-链接———-
从数字看开放存取(Open access) (2006-2-8)

中美数图研讨班(4)·机构库,看起来很美 (2007年5月27日)

知道你已经在做机构库了吗——摘评一份详尽的IR调查报告 (2007年5月28日)

国际机构库调查出版 (2007年11月14日)

台湾机构典藏(TAIR) (2008年7月25日)

香港大学投千万建“全民共享”学术库 (2010年06月07日)

OCLC成员报告:2010图书馆现状

今年的OCLC成员报告出炉:How Libraries Stack Up: 2010。与往年的长篇大论不同,本报告只有10张统计图,通过不同来源的数字,以可视化的图形,与其他公共与私营机构的数据做对比,彰显图书馆在经济、社会及文化诸方面的作用。
可以说每张图都很吸引眼球,无论是内容还是表现形式。不好意思全贴在这里,就最后三张了:
OCLC Membership Report 2010

提供2页的PDF版(有彩色版634K与黑白打印版295K)和11页的PPT版(有与PDF一致的完整版3.96M及模板版2.54M──供各图书馆填进自己的数字)。
我们的图书馆拿得出这样漂亮的数据吗?

via Tennant: Digital Libraries: The Power of Excellent Visualization (June 19th, 2010)
趁机再加上Roy Tennant引用的第3张

[update 2010-06-22] 最近遗漏东西比较多,感谢tsingove提醒,图林中文译站已有中文版:成就突出的美国公共图书馆 (12 六月 2010)

美国图书馆互联网接入服务调查

同样是图书馆,美国的图书馆和中国的图书馆在国民心目中的地位是大不相同的。虽然没有统计数据作依据,但以下判断应该基本上是合乎我们的现实的:想要找书看时,大部分人首先想到的是书店;如果自家不能上网,想要上网时,绝大部分人首先想到的是网吧。仅以自己为例,毕业后在(网上)书店买的书比在自己图书馆借的书多;在外时,曾因办公与查询信息的需要去过两次网吧,却从来没有设想过找个图书馆上网,大部分情况下也不知道附近何处有图书馆。
而在美国14岁以上人口中,69%是图书馆用户,32%是公共图书馆的互联网用户:
美国图书馆用户数

上图取自:Opportunity for All : How the American Public Benefits from Internet Access at U.S. Libraries / Samantha Becker … Washington, D.C. : Institute of Museum and Library Services, March 2010. (200 p. PDF下载

这是华盛顿大学信息学院的“美国影响研究”报告,一项关于公共图书馆计算机与互联网免费接入服务的全国性调查。如报告题目所表明的,美国公众从图书馆提供的互联网接入服务受益良多。研究目的当为在经济不景气的大环境下,提供有力的数据,使公众继续支持公共图书馆。
结论基于近5万个全国范围的调查,包括3176个电话调查(问卷:Appendix 4: telephone survey instrument)、四百多所公共图书馆用户共44,881个网上调查(问卷:Appendix 5: web survey instrument)及319次对用户、非用户、工作人员、管理者、资助机构等的访谈。电话问卷与网上问卷设计十分细致,可见前期准备工作之充分。

报告还附有110个统计数据表(Appendix 3: tables),可供详细了解各调查项目情况。
如附表10旅行中使用公共图书馆电脑访问互联网,占公共图书馆互联网用户的24%(换言之14岁以上人口的8%),其中收入较高、55-74岁、大学及以上学历者更倾向于在旅行中使用公共图书馆互联网接入。
报告正文中的一个例子使用的是自带电脑(p.39),在旅行中发现公共图书馆有Wi-Fi热点,得以处理办公室事务,因而后来在需要热点时,首先寻找图书馆。一般旅行中使用图书馆互联网接入服务,主要目的有联络方面的电子邮件、社会网络,查询天气预报,寻找本地事件如音乐会、集市,支付帐单或处理银行事务,确认旅行预订、打印行程及登机证,以及出差时查询开车路线及营业处地址。

Via 书社会之远洋过客:[调查结果]Study: Third of Americans use library computers

《卫报》网站上的美联社报道:Study: Third of Americans use library computers (March 25 2010)

华盛顿大学信息学院项目网站:U.S. IMPACT Public Library Study