存档在 2010 年十二月
《古今图书集成》网络版
2010年12月21日高校图书馆能为研究提供哪些支持?
2010年12月19日很久不读印刷品了。今天看《图书情报工作动态》,真翻译了不少好内容,可以省掉看原文的辛苦。2010年第8期,有几篇让我想到高校图书馆和教师之间的关系,或者说教师对图书馆到底有什么需求或希望。为科研服务,一直是并且越来越成为高校图书馆追求的目标,那么,图书馆到底能提供哪些支持呢?
研究生涯:美国研究人员所需的信息支持 / Susan Kroll, Rick Forsman著;徐静编译. p.9-14
OCLC今年7月发布的这份研究报告(A Slice of Research Life: Information Support for Research in the United States, pdf: 1.1MB/24 p.) ,是对美国4所著名大学38位研究人员访谈的结果。
被调查者的选择方式值得推荐:“受访者名单主要由各学院院长帮助筛选。之所以通过学校而不是由图书馆馆员来罗列名单,主要是为了避免图书馆过多的推荐受其服务影响较大的研究人员。”(p.10)
对调查结论的态度也值得称赞:“需要强调的是,本调查结果反映的是那些美国主要研究性大学的杰出研究人员和他们所在的学术圈的观点。所有的研究人员未必遵守相同的模式。可以想见,如果在其他情境下进行调研,或许会得出不同的结论。”(p.10)
概述中的结论值得思考:“研究人员迅速适应了那些能够促进其工作的产品,同时拒绝使用那些易用性差、无法提供可观回报的工具和服务”。“研究人员与传统图书馆以及高校的关系已发生彻底的改变。由于时间的限制,他们通常偏好最适度、而不是最优的解决方法”。(p.9)在这种情况下,图书馆再以提供优质资源为号召,吸引力是有限的。
研究者关心的问题及解决途径(信息工具及支撑服务):
⊙ 对资助机会的把握
“直接接收的资助信息和从高校相关机构获取的信息已经足够及时掌握重要的项目资助信息了。而跨学科研究或国际研究……通过以上两种方式似乎还不充足,有必要扩大信息源”(p.10)
[原PDF引语:资助来源明显、有限、易于掌握]
[我国的情况可能差不多,高校科研处、社科处是主要信息来源及推动者。对于所谓横向课题,可类比于跨学科或国际研究,还存在可填补的空白]
⊙ 知识产权管理和商业价值的开发
“本研究所调查的4所高校均设有相应的办公部门专门处理法律和技术转让问题。研究人员通常在需要的时候直接依赖这一部门。只有一两个受访者表示希望借助图书馆的服务,寻找有关版权和许可方面的信息,通过图书馆介绍学校里的其他专家进行咨询。”(p.11)
[原PDF引语:我们被假定生产知识,为什么我们不公之于众?]
[如果学校没有相应机构,而图书馆又有具有法律背景的馆员,也可以作为一种学科服务提供]
⊙ 寻找潜在合作者,扩大自身被发现的可能
“Google、Web of Science、Google学术搜索以及在线专业出版物,通过这些渠道来识别哪些人正在进行相关的研究,并了解他们的个人背景。……个人之间的人际交往是决定是否开展合作的重要决定因素。个人介绍、会议间的谈话或者论文的演示都是选择合作者的依据。”(p.11)
[原PDF引语:即使是初级教员也会很快找到合作者,两三年后就不需要更多合作者了]
⊙ 文件、数据集的管理与存储
“尽管研究人员对某些正在使用的信息工具和服务表示满意,但这正是他们最不满意也是最受关注的部分。随着时间的推移,研究人员积累了大量的工作文档或者数据集。那些过时的记录载体(如:软盘)、过时的软件或者古董级编程语言会导致宝贵的前期工作记录无法使用。部分受访者更愿意直接重复先前的实验(来生成数据),而不是直接寻找原来的实验数据。尽管他们现在还没有面临文件、数据集方面的问题,但迟早会成为这一问题的受害者……”(p.11)
“极少数高校成立了服务中心来存储、维护和检索研究文件和数据。在某些案例里,类似的服务是跨校提供的”。(p.11)
“图书馆或专门的信息技术部门会兴建一个机构库(IR),研究人员可以将他们的作品提交到这个机构库里。但是受访者表示这个机构库只能说成功了一半。研究人员没有足够的时间向机构库上传作品,添加元数据或者合理地组织这些文件。本文认为,高校在收集、维护研究文档和数据集方面的工作普通[遍]不足”。(p.12)
[原PDF引语1:我觉得每所大学都应建立一种体现数据集成价值的文化。]
[原PDF引语2:你可能得到一堆数据,但无法识别其含义]
[从报告看,目前的状况似乎是:问题显然存在,但还没有到让研究人员觉得必须解决的地步。而要使IR成功,馆员做数据上传、元数据标引及内容组织似乎不可避免。只是,目前的IR能够在多大程度上解决这个问题?过时软件等,是另一层面的问题,几乎不可解?]
⊙ 对大文本和数据文件的分析
“对于数据分析,很多研究人员都感到沮丧,往往需要转交统计学家来处理”。“研究人员还依靠各种商业产品来定制所需的数据”。(p.12)
[原PDF引语:程序员知道答案,但不知道问题;我有问题,但不知道答案。只有少数人同时了解两者。]
[数据分析软件的使用培训,应该成为图书馆信息素养教育的一部分。本馆最近开设了SPSS使用讲座,很受欢迎。]
⊙ 提高信息检索与管理技能
“所有的研究人员都将这一条列入非首选行列。……得益于Google以及Google学术搜索在挖掘孤立信息、检索出版物以及发现所感兴趣的内容方面的惊人效率,因此考虑到时间效率问题,研究人员提高检索能力的压力明显减轻。”“少数的受访者大致知道图书馆或者其他专门服务机构提供信息检索和管理方面的技能培训……但是,受访者普遍认为,只有在完成某一项新的研究项目而不得不去掌握某项新的技能时才会抽时间学习它”。(p.12)
[原PDF引语:我曾经使用图书馆获取所有研究信息,但现在我使用Google Scholar。]
[以数据库高级检索为中心的传统文检课,何去何从?]
⊙ 引文管理
“另一个让研究人员感到失望和不满的问题就是引文的插入、存储和处理”。“虽然有些研究人员在他们早期的职业生涯中就已在引文管理软件里处理引文信息,但是绝大多数的人员依然是依靠微软的word程序处理引文”。(p.12)
[原PDF引语:我试图使用RefWorks和EndNote,但太麻烦了。使用软件包无法与那些不使用者的协作]
[插入引文是一回事,存储另一回事。似乎报告没有提到后者的解决之道,Word显然不是合适的管理软件。]
⊙ 选择出版商或选择传播形式
“一些学者认为他们正处于研究生涯的一个新阶段,即发表论文对于长职和任期已不重要了,因此他们更愿意在开放期刊上发表研究成果,使得研究成果能够轻易的被整个研究领域访问到”。“然而,教授们也强烈希望研究生在传统的高影响力期刊上发表论文”。(p.12)
[原PDF引语:你被告知必须在传统期刊上发文]
[教授发OA期刊,研究生发传统期刊,如此传统高影响力期刊还能有影响力吗?至少在吾国,高影响力、高被引期刊列表,仍是图书馆可以做的事]
⊙ 对晋升职位和终身教职的支持(未提及)
⊙ 职业声望
“研究人员承认他们很少花费时间在相关网站上撰写或修改职业履历信息,他们同时也对通过搜索到的他人个人信息的可靠性表示怀疑,例如Community of Science网站上的信息等。相反,他们非常关心自己研究成果在使用中的引证署名和他们研究数据的真实性证据”。(p.13)
[原PDF引语:由于Google,一个人很难操控或隐藏信息,也不大可能“管理”自己的名声]
[提供研究成果及引证数据,也是图书馆可以做的]
⊙ 对预印本、出版物和后印刷本的管理
[原PDF引语1:我把预印本放在自己网站上,因为它比最终出版物中经编辑的版本更能体现我最初的研究。]
[原PDF引语2:我曾存储PDF,现在则存储链接]
[在吾国,愿意共享自己成果的研究人员似乎不多,愿意提供预印本的大概更少。IR的前景何以?]
结论(p.14):
1、易用、高效的工具和服务更受研究人员青睐
“研究人员利用Google检索各种信息,他们知道这类搜索引擎的检索结果既不精确也不全面,但在大多数情况下,他们认为这样的结果已经很好了”。
2、电子期刊的出现正在重塑信息环境和研究过程
3、研究人员普遍缺少存储、维护、检索文件或数据集的管理策略
4、学术网络建立在人际关系之上
5、图书馆必须说明并开创自己的未来
“研究人员并没有注意到大多数图书馆针对数字存取而进行的转变,也没有意识到专业图书馆员能够为他们的用户提供什么帮助,对于图书馆未来的发展也没什么想法。没有一个受访者表示最近到过图书馆。虽然研究人员普遍表示无力创建统一的、可共享的元数据和有序的存储策略,但是图书馆在这方面也没有提供多少有价值的帮助。研究人员需要实实在在的看到信息工具和服务的优势。高校图书馆可以通过开发和整合学科工具,以用户为中心开展个性化服务。”
[其实结论很悲哀的,只是人为地加上了一句光明的结尾]
Google实验室新品Books Ngram Viewer:数据的可靠性
2010年12月18日 Google实验室推出新产品Books Ngram Viewer,以图示形式显示/对比查询词在1800-2000年间图书中的词频,包括英、法、德、俄、西、汉六种文字。与Google搜索不同的是,查询词是区分大小写的。作为Google图书的一个副产品,在图示下还有查询词在Google图书搜索的链接,且根据词频,分不同的年段。
《纽约时报》介绍文“五千亿单词、文化新视窗”(In 500 Billion Words, New Window on Culture, December 16, 2010),译言上的报道名“谷歌发布带有 520 万数字化图书数据的全新可视化工具”(2010-12-18)。
基于520万图书、5千亿单词的语料库,如介绍所说,该产品以可视化方式揭示“语言、文学、文化随时间的变迁”,是“供学者们使用的全新量化工具”,的确很强大。然而,由于原始数据本身存在问题,对结果的影响显然是致命的。以如此结果为依据进行分析,其可靠性自然存疑。
其一、元数据问题
可以明显看到“图书馆”一词在1900年前后进入第一个高峰,在1980年前后出现另一个高峰,均高于“图书”的出现频率。这是很有意思的现象。
点击看1800-1906年段有“图书馆”一词的图书──数据(或元数据)错误暴露无遗。前5条没有一条年份是正确的:
√ 第1条:吉林大学 – 1906《全国高等院校社会科学学报 … 总目录》,命中内容“1923 5 图书馆事业之发展夏廷械”等
√ 第2条:广东省民族研究所, 广东省群众文化艺术馆 – 1900《民族民間艺术研究》Volume 2
√ 第3条:吉林省社会科学院, 吉林大学 – 1900《满铁史资料》Volume 4, Part 4,命中内容“1941 ,油印本(关于在日本内地抚顺煤与我国煤的调查门满铁会社(最近抚顺煤旷出煤情况门中国科学院图书馆存……”
√ 第4条:丁丙 – 1900《武林坊巷志》Volume 1,命中内容“为此、我们特将浙江省图书馆所珍藏的原稿,进行加工整理,分为八册出版,为社会主义精神文明建设, ^提供有价值的历史资料。”
√ 第5条:山西省社会科学硏究所 – 1900《山西革命回忆录》Volume 3
除了第1条1906有点奇怪,其他估计是年份不明的都被当作1900年的了。
其二、字符识别问题
Librarything的Tim使用Books Ngram Viewer发现,fuck这个流行骂人话不但历史悠久,而且在1700年前后远比现在流行。

查图书原文,当年的那个词其实是suck。因为早年字母有所谓“长s”,长像就是没有短横的f。而Google图书显然没能识别。

Via Thing-ology Blog: Romeo and Juliet, with—Get your mind out the gutter! (DECEMBER 17TH, 2010)
———-无语的分割线———-
最近自己一直在为统计伤神。
给不甚准确的原始数据做统计,再……分析,其结果可信度有多少?
OpenDOAR的机构库统计
2010年12月15日 已经有好几年,一直觉得机构库已是明日黄花,虽然看着数量不少,但库规模大的不多。最近因种种原因,又重新拾起来看。
开放存取库名录(OpenDOAR)是了解总体情况的很好入口。网站首页突出显示目前收录超过1800家。曾记下2006年2月5日时为324家,看统计图,2006年以后似乎发展势头很好,一直在平稳向上。
√ 查找:
可以按主题领域、内容类别(文章、图书、会议、数据集、学习对象、多媒体、专利、参考资源、软件、特殊、学位论文、未出版)、库类型(集合、学科、政府、机构)、国家、语种、软件6种途径交叉查询,每种在查询下拉框中都标明了数量。
按库类型,属于机构库的为1481个。
√ 库内容搜索:采用Google定制搜索,而非OAI收割。试下来查不到结果,难道都拒绝Google机器人访问?
√ 库列表:按洲别、国家浏览。方便了解各大洲、各国情况。
√ 统计:
可以组合出各种统计图表,缺省的是世界范围的。

从收录条数看,超过5万的有36个库(2%),其中很多不是机构库,如首位的ERIC(130万条)、第3位的PubMed Central(80万条)、第5位的arXiv(60万多条);也有一些应该是大学机构库,如排名14的英国剑桥大学DSpace@Cambridge(19万多条)、排名19的比利时根特大学学术书目与机构档案(12万条)。
在所有1815个库中,收录1万条以上的共184个库(10%)、5千条以上的共315个库(17%)、1千条以上的共771个库(42%)、5百条以上的共987个库(54%)──不到5百条的611个库(占1/3),还有216个库没有标明收录条数。
———-机构库软件———-
机构库软件是DSpace(665)一家独大(超过1/3),Eprints(297)其次(近1/6),其后依次是Digital Commons(79),OPUS(54),余下都不超过30,Greenstone(24)第6位,听说过的还有ContentDM(17),Fedora(16),DigiTool(15),竟然还有WordPress(1)。
最近常被推荐Drupal,有4家采用。查了下,加拿大爱德华王子岛大学的IslandScholar是规模最大的(10142条),说明是Drupal+Fedora,没有OAI-PMH网址。
IslandScholar看内容是典型的大学机构库。有简单的技术说明(Technical Components),抄录如下:
1. Fedora (ver 2.2.4)
* Lucene – Indexing/searching
* MySQL – Database
* Mulgara – Resource Index
* XACML – Security
2. RuleEngine Framework – Rules for conversion processes
* OpenOffice conversion engine
* Searchable PDF
3. Drupal – ver 5.12
* igital Repository Module
** OpenSource module for connectivity to FEDORA
** developed by UPEI
* Faculty Authentication with UPEI Credentials
** LDAP Module
* Book Module – Automatic Book menu generation
* Path Module – renaming of URL’s
* SpamSpam Module – obfuscates email addresses
* Printer Friendly Pages
4. Discovery/acquisition of Published Copy
* Sherpa/Romeo -auto-connects to display publisher permissions info for articles
* COINS support
** LibX UPEI Edition
* OpenURL
5. Refworks
* Compiling Collections
* Data Cleanup
* Creation of XML for import into FEDORA.
6. Programming Languages used
* PHP
* XML
* Java
* JavaScript
7. Operating System/Hardware
* SLEZ 10
* Dell PowerEdge
** Dual Quad Core CPU’s
** 16GB RAM
———-链接———-
从数字看开放存取(Open access) (2006-2-8)
中美数图研讨班(4)·机构库,看起来很美 (2007年5月27日)
知道你已经在做机构库了吗——摘评一份详尽的IR调查报告 (2007年5月28日)
国际机构库调查出版 (2007年11月14日)
台湾机构典藏(TAIR) (2008年7月25日)
香港大学投千万建“全民共享”学术库 (2010年06月07日)

