中美数图研讨班(5)·数字图书馆还要自建吗?

    在数图班结束那天,打算再写一篇有关的博文。不过据说是因为一把年纪的缘故了,两周课结束,感觉身心俱疲,没有及时动手。隔天晚上又为参加上海地区图书馆2.0应用与实践研讨会,赶着做一个PPT。如果不是看到图谋的“感言”,差不多把这件事忘了。
    各小组的项目报告主题各异、多姿多彩,项目有上课时即兴想到的,也有原来计划中的,更有基于已建项目的。印象深刻的有侧重实现技术的“上海年华·人物篇”,还有对功能推敲细致入微、着重商业推广的“海派餐饮文化”。笔记不在手头,无法一一细述。
    听各小组的项目汇报,发现一个很有意思的现象:
学员提问,总是加功能——比如纺织服装数字图书馆,现在有网站可以试穿衣服什么的,你们有没有考虑提供类似功能?
老师(张晓林、秦健)点评,总是质疑功能太多:要实现这么庞大的计划,恐怕还没等建成,就已经过时了。
    自己工作中想建的,只是一个功能十分单一的“馆藏特色民国书刊库”。但想着要完成课程报告,这样“可怜”的东西肯定是拿不出手的,所以作为小组的项目报告,极力推崇比较丰富一点的现有项目。或许我那可怜的项目,正是老师们所乐见的?

    开班时孙坦讲“虚拟数字图书馆”(参见花生壳的报道),我理解他所讲的“虚拟”,不但不是具体的数字图书馆,甚至不是mashup,而是把其他来源的内容根据用户的需求临时组合起来——差不多就是一站式检索结果的聚集。(理解是否正确,有待考证)
    结业式后的“数字图书馆开放论坛”,张晓林宣讲他据说讲了无数次的畅想——“国家科学数字图书馆服务功能再造与建设进展”。我是第一次听,从头到尾,在PPT中出现的大量图表中,我没有看到哪部分是国家科学图书馆自建的。
    记得在点评“上海年华·人物篇”时,张晓林就曾质疑,项目计划中的很多内容在美术馆、博物馆及上图自己的网站上已经存在,为什么不经由通用接口拿过来,还要自建?

    尽管上的是数字图书馆课程,但课程的一头一尾,给我的感觉却是,我们现在不需要想着做什么数字图书馆,只要去找到可以用的东西,直接拿来提供给用户就可以了。
    有比数字图书馆更重要的东西:“图书馆应该与用户一起,到用户那里去构建和维护用户自己的信息/知识环境,而不仅仅着眼于构建图书馆的馆藏。”(引自花生壳,不记得是否孙坦原文)

    update (2007-6-1): 开放论坛的提问阶段,图谋向张晓林提问:对高校数字图书馆有何建议?张晓林的回答是:高校要准备好变化,当一二千元的手提电脑、高速无线网以及电子书普及,读者已经在网络上建起了自己的流程,你是去还是不去?

    如果觉得上面这些引述与感想不太清晰,建议看OCLC近年的两次研究报告。

参见:
图谋:中美数字图书馆高级研讨班项目报告感言
花生壳:第三届中美数字图书馆高级研讨班侧记

update (2007-6-1): 花生壳新博文对此问题的解答是——两手都要抓,两手都要硬:
花生壳:数字图书馆研讨班总结

update (2007-6-2): 刚发现还有一位资深的博主也参加了数图班,惜乎无缘一见。其新博文正好介绍了OCLC的Perceptions of Libraries and Information Resourcessearch for tomorrow
倦鸟归林:OCLC:search for tomorrow

相关链接:
数字图书馆会议信息二则
中美数图研讨班·开班前胡思乱想
中美数图研讨班(2)·遗憾的绿宝石、教学效果评价
中美数图研讨班(3)·规划一个梦想的数字图书馆
中美数图研讨班(4)·机构库,看起来很美

知道你已经在做机构库了吗——摘评一份详尽的IR调查报告

    还在想是不是要做机构库?很可能你早就在做而不自知?
 
    远洋过客在“机构库,看起来很美”下留言,告诉我们一个最新的美国IR调查报告,长达167页,数据全面丰富,真是"overall picture",十分精彩!

Markey, K., Rieh, S., St.Jean, B., Kim, J. & Yakel, E. (2007). Census of Institutional Repositories in the United States: MIRACLE Project Research Findings. Washington, D.C.: Council on Library and Information Resources. CLIR Publication No.140, 167 p. ISBN 978-1-932326-28-4 (http://www.clir.org/pubs/abstract/pub140abst.html) (PDF全文,2.9MB)

    调查意在更好的实施IR。项目组甚至想帮助不打算实施者重新考虑IR,在p.77特别列了长达一整页的表(表9.1),或许可以解除有关IR的所有疑惑?
    报告结尾附有针对无计划、计划中、试验中、实施中四种机构的不同问卷,以及IR十个方面的文献评述。

    调查报告太长,抽些感兴趣的图表初初看过,摘评如下:

基本数据:问卷数2147,回复446,回收率20.8%。

p.15 表2.1 IR参与程度
无计划的机构52.9%,计划中的机构20.6%,试验中的机构15.7%,实施中的机构10.8%。
[一半以上机构还没有打算做]

p.17 表2.2 问卷填写者
绝大部分为图书馆人员(馆长74%、副馆长8%或馆员10%)
[可见图书馆承担IR居多]

p.18 表2.3
实施中研究型大学比例最高62.5%,而无计划中比例最高为硕士(43.6%)和学士(33.5%)学校。
[最牛的学校总是走在前头的]

p.23 表2.6 IR责任分担
实施中的图书馆责任分担约85%,试验中的图书馆责任分担近60%,规划中的图书馆责任分担不到50%。
[报告认为这是不同实施阶段的不同,我却把它解读为,随着IR的发展,图书馆在建设IR中承担的责任有下降趋势。或许这种解读是不正确的。]

p.31 表4.1 是否实施过需求评估
实施中机构,58.3%未做过需求评估,试验中机构,65.2%未做过需求评估,规划中机构89.7%未做过需求评估。如果再加上5-12%不知道的,未做过需求评估的比例还会增加。
[可见IR实施的盲目性,并且随着IR的发展,这种盲目性在增加。或者说,看别人都在做,于是自己就不加思索地跟着做。]

p.38 表5.1 机构中的IR数
大部分机构只有1个IR,也有2-3个的,甚至在试验中的机构有4个及以上IR的。
[或许这可以解释为什么ROAR说很多IR基本上是空的——正处在试验中,内容还不多——而这,可能从反过来说明,IR正红火着呢?]

p.43 表6.1 IR中数字文献量
在已经实施的IR中,仅19.4%超过5000,40%以上不到500;试验中的IR,仅8.3%超过5000,近70%不到500。
本项目调查人员还发现,IR规模与其存在年限没有关系。
[或许在最初筹备的文献加入后,就没新的内容了?恐怕红火假设未必成立?]

p.44 表6.2 IR中数字文献类型
无论在实施中还是试验中的IR,唯一数量超过1000的是博士论文
[原来国内图书馆早就都在做IR了——哪家高校没有硕博论文数据库啊?]

p.52 表6.3 IR的授权贡献者
[谁可以向IR提交内容呢?看这个表很有意思,好象什么人都可以——尽管排在最后,但有10%以上允许external contributors]

p.54 表6.4 IR主要贡献者
实施中的教员首位,占33.3%;研究生其次,占20.5%;图书馆员再次,占10.3%。
试验中的也是教员首位,占59.7%;图书馆员其次,占19.4%;档案馆员再次,占8.1%。
[老师的参与度还是最高的,且遥遥领先。不知道是出于制度,还是出于意愿]

p.60-61 表7.1、表7.2 建立IR的益处
按序列出了益处。
[对图书馆肯定是有益的,对所属机构也有益——如果要写建立IR的论证报告,这里罗列的文字与数据就用得上了]

p.62 表7.3 损害成功IR实施的因素
头两项:
1、缺乏某些类型资料的强制贡献规定,如硕博论文,教员预印本
2、贡献者缺乏关于从IR得益的知识
[很幸运,国内高校大致都有硕博论文的强制提交规定]

p.67 表8.1 不计划做的原因
前五位:
其它事情更紧迫87.2%
没有支持的资源71.1%
在评估与自己类似的机构后考虑 65.5%
馆内没有做计划的技术58.8%
在评估与一般机构后考虑 56.1%
[不计划做的机构表现得比表4.1中的机构更清醒些?]

p.78 表9.2 本次调查中证实的以前调查结论
与开头所述表9.1一样,也是一整页的结论。其中有:
试验中与实施中IR都很小
[或者说开始实施时红红火火,但缺乏可持续性?那为什么项目组还要忽悠人去实施呢?固然实施得好有很多益处(表7.1、表7.2),但如果结果并不理想,其中的好多益处不就荡然无存了吗?]

中美数图研讨班(4)·机构库,看起来很美

没探究过“institutional repositories”(简称IR,机构库、机构仓储、机构典藏、机构知识库)的起源。但看到那些比较牛的学校都在做,自己似乎觉得也应该做。
不过,具体到操作层面,首先要考虑数据来源,就积极不起来了。毕竟国内的教师都比较保守,不理解成果在网上可见的益处,有共享意愿者不多;并且国内也没有见到哪个权威部门或学术机构有支持开放存取的政策,没有任何保障数据获取的渠道,反而有版权方面的问题。

听秦健老师讲到IR,原来国外也是图书馆方面一头热,图书馆要拼命游说校长及分管负责人,而教授们并不积极参与贡献。或者说,国内存在的问题,国外也同样存在。她指出,IR在经历了前些年的研究开发热后,现正在退潮。
之前,Paul在讲开放存取时,提到过开放存取仓储注册机构(Registry of Open Access Repositories, ROAR)的一些统计,同样说明了这样的现状:
· 许多IR差不多是空的,IR中的很多文献不是全文
· IR中的文献数量增长很大,但增长已经趋平

今天是数图班的项目汇报,第一个汇报的项目就是IR,主要介绍北京理工大学建设中的学术资源仓储。提问到版权问题,回答的解决之道是提供摘要,链接全文。同时报告者也承认进展缓慢。
国内在IR上热得慢,冷得也慢——至少对我来讲,是第一次听到有关IR的实实在在的不利信息。

关于IR软件,国内谈得较多的大约依次是:DSpace, Fedora, Greenstone和EPrints,其中又以前两者应用较多。此次秦老师介绍了一个新软件:iVia。秦老师介绍该软件功能强大,可自动生成元数据,自动加LCSH、分类,采用DC元数据,可与MARC混用,基于XML……。
IR或许不那么容易做,毕竟还要钱砸下去。但把开源的iVia弄来研究一番,还是可以的。不做用它做IR,还可以做别的数字图书馆项目:
iVia: Open Source Internet Portal and Virtual Library Software

参见:
数字图书馆会议信息二则
中美数图研讨班·开班前胡思乱想
中美数图研讨班(2)·遗憾的绿宝石、教学效果评价

中美数图研讨班(3)·规划一个梦想的数字图书馆