最近Keven连发强贴探讨图书馆有没有未来(图书馆有未来吗?、续、再续、续三、续四、续五,待续完结篇)。看到加州数字图书馆的网络档案(Web Archives),不知道保存网络是不是图书馆的一种未来?
互联网时代,图书馆员最早发挥的特长是知识组织,对网站、网页做人工筛选、标引、编目、组织主题目录(CALIS的“学科导航”也属此类)。这种综合或专题的目录继承了OPAC的所有优点和缺点,相对于搜索引擎来说,最大的问题就是没有全文检索,可用性随着搜罗内容的增加而下降。
图书馆另有专长是保存人类的知识,这是图书馆长久以来承担的责任之一。图书馆经历了保存甲骨、泥版、纸莎草、竹木简、羊皮……纸张、胶卷、磁带、光盘……,在比特时代,增加新的保存载体也是顺理成章的。由于网络内容的不稳定性(统计数据……),现实上也有这种需求。
如同图书馆不能收藏所有的图书,图书馆也无法保存完整的网络。而有选择地永久保存网站与网页,形成专题,正是图书馆所擅长的。知道国内图书馆也有做这方面工作的,如国家图书馆的“网络信息保存项目”(惜乎一直无法访问),东华大学的纺织特色数据库也有存档网页的部分。尚有一点不明白的是其中的版权问题:图书馆有权保存这些网页并提供服务吗?大家都在做,暂且存疑。
加州数字图书馆(CDL)的网络档案(Web Archives)是一种托管服务,带有云计算的特征(下述Archive-It类似):
√ CDL提供存档工具及存贮(Web Archiving Service, WAS)
√ 专题网络档案(目前包括18个专题,由不同机构建立,以加州本地内容为主,纽约大学图书馆的几个侧重左翼政治)
√ 收录网站浏览+全文检索
Web Archives链接了其它公开网络存档项目,各具特色的内容是专题研究很好的参考数据源,实现方式也可借鉴:
综合性的:
* Internet Archive (IA) 互联网档案(网络存档的元老)
* Archive-It 为后代保存互联网:收集、管理、检索……存档。目前有881个公开收藏,分为艺术人文、计算机与技术、政府、自发性事件、政治与选举、科学与健康、社会与文化、大学与图书馆八大类。由参与机构从IA制作不同主题的收藏(collections),由IA负责保存。
* Pandora (Australia) 保存与访问澳大利亚网络文献资源。分18个主题。
保存政府网站受重视:
* Government of Canada Web Archive 加拿大政府网络档案
* Library of Congress Web Archives (LCWA, Minerva) LC互联网档案(曾名“智慧女神密涅瓦”)。侧重美国政府与外交,如:2006年苏丹达尔富尔危机、2003年伊位克战争、2001年911事件及美国国会、选举档案等。
* CyberCemetery 网络墓地。北德克萨斯大学图书馆与USGPO合作,保存现已不存在的美国政府机构与委员会的网站及出版物,提供永久访问。
* The Stanford WebBase Project 同样侧重收集美国政府网站(目前只能下载,无检索功能)
采用开源软件(CDL工具估计基于同样软件):
* Harvard Web Archive Collection Service (WAX) 哈佛网络档案收藏服务。试验性项目,目前有三个档案:博客──捕捉妇女之声,日本宪法修正研究,哈佛网站档案。
采用多种开源工具,包括:互联网档案(IA)及国际互联网保存联盟(International Internet Preservation Consortium, IIPC)的Heritrix网络爬虫、Wayback索引工具、NutchWAX检索工具,以及OpenSymphony的Quartz作业调度软件。
特色馆藏数字化与网络存档的结合:
* UCLA Campaign Literature Archive UCLA竞选文献档案:一个世纪的洛杉矶选举。收集符合要求的网站,并与UCLA特藏的数字化扫描结合。
Via Press Release: California Digital Library [July 21, 2009]
Library Technology Guides: Web archiving service preserves data for the future
[update] 《数字图书馆论坛》2009年第7期话题:网络信息资源保存
网络信息资源保存所面临的问题和挑战
/ 吴振新(中国科学院国家科学图书馆) PDF查看
网络信息资源保存的协作网络研究 / 吴振新 张智雄 王婷(中国科学院国家科学图书馆) PDF查看
网页变化监测相关技术与方法研究* / 高建秀 吴振新 张智雄(中国科学院国家科学图书馆)
PDF查看
网络信息资源保存的编目方法与系统研究*
/ 孙敏杰 吴振新 孙志茹(中国科学院国家科学图书馆) PDF查看
基于Web Archive的网页重现方法及应用研究*
/ 向菁 吴振新 孙志茹(中国科学院国家科学图书馆) PDF查看
网络信息采集与保存标准规范研究* / 曲云鹏 王志庚 李春明 周晨 李成文(中国国家图书馆) PDF查看
基于网络信息资源保存的生命周期管理研究* / 李成文 王志庚 李春明 周晨 曲云鹏(中国国家图书馆)
PDF查看
传统图书馆的职能,在网络时代似乎都应该继承,这一定是图书馆人的美好愿望。
但是,这种“继承”恐怕不是自然而然的,是一个痛苦的充满斗争的过程,这也是为什么我们现在应该积极争取,并且提倡“技术救图”的原因。
问题1:图书馆应该尽可能保存人类有价值的数字文化遗产吗?答案(应该比较一致):应该。
问题2:图书馆有权利保存人类有价值的数字遗产吗?还没有。这的确需要立法支持。而立法是一个斗争的过程。
问题3:图书馆有能力保存人类数字文化遗产吗?还没有。不能小看了保存数字文化遗产所需要的资金、资源、技术、人力。现在data curation已经为很多国家所重视,只有我们这种文盲掌权的国家(易中天语)还在为争权夺利你争我夺,但这种事情往往成为一个好的籍口,我们当然也可以利用这个籍口来发展自己。
结论:数字保存是图书馆得以拯救的一根稻草。抓不抓得住,就目前烟鬼当道尚不自知的图书馆界情形来看,希望渺茫。
博主 对 keven 的回复: 2009-07-25 14:34:10
吴馆长认为“图书馆依然应该把收藏各类人类文明记录为己任”,可是“现在有这么多各类载体以及网上的资料……如果光是由图书馆来承担的话,那么这些资源是收不胜收的”──Keven是不是觉得这种态度不足以抓稻草?
哈哈,毫无疑问,能不能抓稻草不是由态度决定的,从态度到行动到结果,还有很长的路要走。
数年前就听过国图陈力馆长专门报告Web Archiving,不仅态度积极,而且真金白银,结果没有点燃大火,那个项目自己反倒是要死不活了。就目前而言,我还看不到任何机构,有任何进行数字保存的长期动机,除非立项骗钱。
这个事情因为无利可图,只有国家层面可以做,首先要研究方案,最好国图、国科图、中信所、CALIS以及几个大图书馆联合,利用分布式云存储,建立长期的机制,甚至要有立法协助。谁告诉我:这可能吗?
博主 对 keven 的回复: 2009-07-25 16:09:17
或许这些大馆可以建类似IA、CDL的平台,小馆们参与做专长的专题。可能不可能,就8知道啦。
这篇文章写得真好,全面而精确,学习了。
我想一般图书馆的作业不是保存网络,是对网上发表的资源有重点地保存(例如国会馆的),就像搜集档案资料一样。 Internet Archive的目的和操作与图书馆的也不一样。不同馆从来就有不同职责和服务对象,如果这点搞清楚了,应该在数字资源的保存上也有明确的不同点。围绕‘事件‘保存可能是最行得通的,又能进能退的事。但是要有这种意识,等到事发了再去打报告申请经费来保存,多半已经没有那么有价值了。Keven说的‘无利可图‘可能正是缺乏行动的根源,要有真正有远大眼光的人才能把这事做起来。上海总会有一家(上图或??)将世博会的网上资源都保存起来吧。孙卫说有百分之几十的08奥运会资源已经成无效资源,真是一个绝好的警钟。
博主 对 远洋过客 的回复: 2009-07-25 20:20:28
惭愧,只注意“专题”了,没注意到很多是“事件”呢。
保存世博,吴馆长肯定兴趣大大嘀。如果上图还不曾准备的话,Keven可以此忽悠领导啦。
数字保存是图书馆得以拯救的一根稻草。抓不抓得住,就目前烟鬼当道尚不自知的图书馆界情形来看,希望渺茫。
K先生说的很中肯.
顶
顶
现代图书情报技术( 2009年 25卷 1期)
Web Archive发展历程与发展趋势研究
Web Archive的采集策略研究
Web Archive存档策略分析
Web Archive检索系统架构分析
基于数据挖掘的Web Archive资源应用分析
博主 对 ti 的回复: 2009-08-27 23:14:40
谢!