日志标签 ‘统计’

OpenDOAR的机构库统计

2010年12月15日

    已经有好几年,一直觉得机构库已是明日黄花,虽然看着数量不少,但库规模大的不多。最近因种种原因,又重新拾起来看。
    开放存取库名录(OpenDOAR)是了解总体情况的很好入口。网站首页突出显示目前收录超过1800家。曾记下2006年2月5日时为324家,看统计图,2006年以后似乎发展势头很好,一直在平稳向上。

查找
可以按主题领域内容类别(文章、图书、会议、数据集、学习对象、多媒体、专利、参考资源、软件、特殊、学位论文、未出版)、库类型(集合、学科、政府、机构)、国家语种软件6种途径交叉查询,每种在查询下拉框中都标明了数量。
按库类型,属于机构库的为1481个

√ 库内容搜索:采用Google定制搜索,而非OAI收割。试下来查不到结果,难道都拒绝Google机器人访问?

√ 库列表:按洲别、国家浏览。方便了解各大洲、各国情况。

统计
可以组合出各种统计图表,缺省的是世界范围的。
OpenDOAR统计一览
    从收录条数看,超过5万的有36个库(2%),其中很多不是机构库,如首位的ERIC(130万条)、第3位的PubMed Central(80万条)、第5位的arXiv(60万多条);也有一些应该是大学机构库,如排名14的英国剑桥大学DSpace@Cambridge(19万多条)、排名19的比利时根特大学学术书目与机构档案(12万条)。
在所有1815个库中,收录1万条以上的共184个库(10%)、5千条以上的共315个库(17%)、1千条以上的共771个库(42%)、5百条以上的共987个库(54%)──不到5百条的611个库(占1/3),还有216个库没有标明收录条数。

———-机构库软件———-
    机构库软件是DSpace(665)一家独大(超过1/3),Eprints(297)其次(近1/6),其后依次是Digital Commons(79),OPUS(54),余下都不超过30,Greenstone(24)第6位,听说过的还有ContentDM(17),Fedora(16),DigiTool(15),竟然还有WordPress(1)。

    最近常被推荐Drupal,有4家采用。查了下,加拿大爱德华王子岛大学的IslandScholar是规模最大的(10142条),说明是Drupal+Fedora,没有OAI-PMH网址。
    IslandScholar看内容是典型的大学机构库。有简单的技术说明(Technical Components),抄录如下:
1. Fedora (ver 2.2.4)
* Lucene – Indexing/searching
* MySQL – Database
* Mulgara – Resource Index
* XACML – Security
2. RuleEngine Framework – Rules for conversion processes
* OpenOffice conversion engine
* Searchable PDF
3. Drupal – ver 5.12
* igital Repository Module
** OpenSource module for connectivity  to FEDORA
** developed by UPEI
* Faculty Authentication with UPEI Credentials
** LDAP Module
* Book Module – Automatic Book menu generation
* Path Module – renaming of URL’s
* SpamSpam Module – obfuscates email addresses
* Printer Friendly Pages
4. Discovery/acquisition of Published Copy
* Sherpa/Romeo -auto-connects to display publisher permissions info for articles
* COINS support
** LibX UPEI Edition
* OpenURL
5. Refworks
* Compiling Collections
* Data Cleanup
* Creation of XML for import into FEDORA.
6. Programming Languages used
* PHP
* XML
* Java
* JavaScript
7. Operating System/Hardware
* SLEZ 10
* Dell PowerEdge
** Dual Quad Core CPU’s
** 16GB RAM

———-链接———-
从数字看开放存取(Open access) (2006-2-8)

中美数图研讨班(4)·机构库,看起来很美 (2007年5月27日)

知道你已经在做机构库了吗——摘评一份详尽的IR调查报告 (2007年5月28日)

国际机构库调查出版 (2007年11月14日)

台湾机构典藏(TAIR) (2008年7月25日)

香港大学投千万建“全民共享”学术库 (2010年06月07日)

OCLC成员报告:2010图书馆现状

2010年6月20日

今年的OCLC成员报告出炉:How Libraries Stack Up: 2010。与往年的长篇大论不同,本报告只有10张统计图,通过不同来源的数字,以可视化的图形,与其他公共与私营机构的数据做对比,彰显图书馆在经济、社会及文化诸方面的作用。
可以说每张图都很吸引眼球,无论是内容还是表现形式。不好意思全贴在这里,就最后三张了:
OCLC Membership Report 2010

提供2页的PDF版(有彩色版634K与黑白打印版295K)和11页的PPT版(有与PDF一致的完整版3.96M及模板版2.54M──供各图书馆填进自己的数字)。
我们的图书馆拿得出这样漂亮的数据吗?

via Tennant: Digital Libraries: The Power of Excellent Visualization (June 19th, 2010)
趁机再加上Roy Tennant引用的第3张

[update 2010-06-22] 最近遗漏东西比较多,感谢tsingove提醒,图林中文译站已有中文版:成就突出的美国公共图书馆 (12 六月 2010)

美国图书馆互联网接入服务调查

2010年4月5日

同样是图书馆,美国的图书馆和中国的图书馆在国民心目中的地位是大不相同的。虽然没有统计数据作依据,但以下判断应该基本上是合乎我们的现实的:想要找书看时,大部分人首先想到的是书店;如果自家不能上网,想要上网时,绝大部分人首先想到的是网吧。仅以自己为例,毕业后在(网上)书店买的书比在自己图书馆借的书多;在外时,曾因办公与查询信息的需要去过两次网吧,却从来没有设想过找个图书馆上网,大部分情况下也不知道附近何处有图书馆。
而在美国14岁以上人口中,69%是图书馆用户,32%是公共图书馆的互联网用户:
美国图书馆用户数

上图取自:Opportunity for All : How the American Public Benefits from Internet Access at U.S. Libraries / Samantha Becker … Washington, D.C. : Institute of Museum and Library Services, March 2010. (200 p. PDF下载

这是华盛顿大学信息学院的“美国影响研究”报告,一项关于公共图书馆计算机与互联网免费接入服务的全国性调查。如报告题目所表明的,美国公众从图书馆提供的互联网接入服务受益良多。研究目的当为在经济不景气的大环境下,提供有力的数据,使公众继续支持公共图书馆。
结论基于近5万个全国范围的调查,包括3176个电话调查(问卷:Appendix 4: telephone survey instrument)、四百多所公共图书馆用户共44,881个网上调查(问卷:Appendix 5: web survey instrument)及319次对用户、非用户、工作人员、管理者、资助机构等的访谈。电话问卷与网上问卷设计十分细致,可见前期准备工作之充分。

报告还附有110个统计数据表(Appendix 3: tables),可供详细了解各调查项目情况。
如附表10旅行中使用公共图书馆电脑访问互联网,占公共图书馆互联网用户的24%(换言之14岁以上人口的8%),其中收入较高、55-74岁、大学及以上学历者更倾向于在旅行中使用公共图书馆互联网接入。
报告正文中的一个例子使用的是自带电脑(p.39),在旅行中发现公共图书馆有Wi-Fi热点,得以处理办公室事务,因而后来在需要热点时,首先寻找图书馆。一般旅行中使用图书馆互联网接入服务,主要目的有联络方面的电子邮件、社会网络,查询天气预报,寻找本地事件如音乐会、集市,支付帐单或处理银行事务,确认旅行预订、打印行程及登机证,以及出差时查询开车路线及营业处地址。

Via 书社会之远洋过客:[调查结果]Study: Third of Americans use library computers

《卫报》网站上的美联社报道:Study: Third of Americans use library computers (March 25 2010)

华盛顿大学信息学院项目网站:U.S. IMPACT Public Library Study

OPAC使用统计

2008年2月13日

    要改进OPAC,直接对OPAC的使用情况进行统计分析,有时比做读者问卷调查更重要。
    记得上交大做过读者对OPAC的调查,结果反应还不错。我以为那是因为国内的网上书店没有Amazon那么出色,豆瓣也不似LibraryThing那般整合众多书目信息、经挖掘整理后可用于OPAC。如果有功能强大的参照物,结论应当有所不同。
    keso曾经有文题为“不要听用户的”:“Jakob Nielsen的可用性第一准则,就是不要听用户的……苹果的乔布斯相信,用户的需求不是他自己发现的,而是你替他发现的。在iPod出来之前,没人知道自己需要一个iPod。”,豆瓣的“杨勃相信数据,相信用户怎么做比他们怎么说更本质。”“一件有创造性的工作,在很大程度上不是满足用户已有的需求,而是创造尚不存在的需求。你怎么可能指望用户对自己尚未意识到的需求,提供有价值的看法呢?”
    斯塔夫里阿诺斯在《全球通史》(北京大学出版社,2006年第2版)中举过类似的例子:“不是存在于本世纪(指20世纪)初的对汽车的需求创造了今天巨大的汽车制造业,而是制造廉价的T型“福特”牌汽车的能力刺激了现代对汽车的大量需求。”(下册,p487)

    LibraryThing的Tim Spalding在NGC4Lib邮件组中征求OPAC中的推荐、标签等的点击数据。英国Huddersfield大学图书馆的David Pattern提供了一份很详细的数据,在最近12个月的总共2,055,707次关键词检索中,他所提供的OPAC新功能的点击次数及所占百分比[可以与一年前的数据对比:If you build it, will they come? (part 2)]:

62,410 (3.0%) 拼写建议("Did you mean?") [日均171:126]
33,709 (1.6%) 借阅参考("People who borrowed this, also borrowed") [日均92:70]
 4,131 (0.2%) 其他版本(xISBN/ThingISBN)(数月前停用xISBN)[日均11:16]
 2,058 (0.1%) 关键词组合建议
   381 (0.02%) 推荐("We think you might be interested in")

“关键词组合建议”是在用户只输入1-2个关键词时,根据之前所有用户关键词组合检索记录,提供多至4个其他关键词[保存检索记录,加以统计分析,进而利用]。“推荐”则是在用户登录图书馆帐户的情况下,向其提供的个性化建议。这两项功能推出不久[不知是不合用,还是用户没有注意到]。

    David还提供了各类关键词的检索数据、不同命中结果量数据(其中21.4%无命中)、检索所用关键词数量,并说明了他暂时还没有统计的数据,如浏览检索结果详细页面的情况。[是否点击结果,从某种程度上说明结果是否真正是检索者想要的]

    Emory大学图书馆的Selden Deemer提供了一份该馆2008年1月不同检索途径的检索数据,尽管不合乎Tim的要求,可谓文不对题,但对于了解一般OPAC的使用也是有价值的。统计分为检索与浏览两部分,合计:检索110,973,浏览5,263[不足5%]。不同检索途径的详细数据:
General         50,997
Title           16,994
Author          13,951
Periodical       4,798
Subject          3,999
Series             223
Other           20,011
    并说明无命中结果的情况占20%(关键词)到50%(丛编)。

    结果发布,却引来砖头无数,其中最重要的一点是认为没有对用户加以区分:哪些类型的用户使用哪些检索途径,是馆员用的还是一般用户用的。
    我原以为馆员在所有用户中所占比例极小,对统计结果的影响应该是微乎其微的,但从Texas A&M大学图书馆的Bennett Claire Ponsford提供的按馆员与公众区分的OPAC使用统计(OPAC usage stats)来看,某些检索途径馆员使用占所有使用量的比例相当大,甚至远超公众使用量(如索书号浏览、题名前方一致检索),因而足以影响统计分析。

    中国用户的OPAC使用数据又有什么样的特点呢?老拿国外数据说事儿,也是无奈之举啊。

秋后算帐:多收了三五斗

2007年9月16日

   有一老农,辛勤耕耘一年,收入不足5000,还没除去种子、化肥、农药……一应开销。
    看邻居,田没自己多,也不劳作,只偶而站田头袖手观望,就靠前一年收割时掉落在田里的种子自生自灭,居然也从田里收入近4000。
    老农心下暗想:明年?还得多盘算盘算!

附:搬家周年祭 (2006/9/16-2007/9/16)

    这些年来,日渐依赖RSS阅读,到现在,已很少在RSS阅读器之外读博文——除了想留言或看留言,基本上只读阅读器中显示的那部分内容,看不到的,就当不存在了。推己及人,搬家后不久便开始提供全文RSS。

    从开始写博起,一直注意访问统计。一年后注册了“51啦”,后来又同时用Google Analytics,空时看看访问自己Blog者的各种信息,有时也挺有意思。两个月前,无意中发现新旧Blog的访问统计竟然差别很小。虽然并未刻意追求访问数量,也知道Page View将死,但如此结果真是意料之外——仔细想想,似又在情理之中……

       访问量             博客中国/博客网   博客巴士
2006/9/16搬家日      103500(估计)       0
2007/9/16搬家周年    142775           49635
     年访问量                39275           49635


PS:Blogbus新近推出了访问统计,比较简单,也算不错了。除了原来的概览(总访问量、今日/本周/本月访问量、日志数、评论数等)外,新增项目:

最近一周访问量变化趋势(柱形图)
日志排名:访问量前十名日志(及访问数)
来源统计:访问来源前十位域名(及访问数)
来源关键词:前十个来源关键词(及访问数)、最近来源关键词
来源URL:访问来源前十条URL(及访问数)、访问来源最新URL