存档在 2010 年十二月

《古今图书集成》网络版

2010年12月21日
    《古今图书集成》可以在CADAL(大学数字图书馆国际合作计划)的“古籍”部分查到并公开访问全文,实为中华书局影印本。
    今天看到《中国索引》2010年(第8卷)第4期载文“《古今图书集成索引》网络版推出”(p.60),前往一观。
    广西大学古籍整理研究所的《古今图书集成·索引&全书图像》,不但可以公开访问全文图像,还可以通过索引定位内容。
    “網站所擁有的全書圖像來自對1934年中華書局武英殿本影印本的掃描,本站所使用的索引自1984年我們開始編製《古今圖書集成索引》起,經歷了油印本(1984年,80萬字,三大本)、印刷本(1988年,275萬字,中華書局和巴蜀書社出版)、電子版1.0版(1998年,1200萬字,金海灣電子音像出版社和廣西師範大學出版社聯合出版)、電子版2.0版(2007年,3800萬,光盤版,待出版;2009年網絡版)等四個階段。索引數據不斷擴充完善。”上述文章称2010年制成网络版,网站留言最早是2010年4月。
    真是四分之一世纪的用心之作!采用传统索引方式,除“经纬目录”外,“索引部分建立52个标目式多字段索引,合计1189013条记录,共38359673字”。52个索引分别对应于图表类、列传类、引书类、文学艺术类、天文类、历史古籍类、行政区划类、医药卫生类、经济类、生物类、宗教类,适合精确检索
    默认为繁体字版,输入简体字检索无结果;可切换到简化字版。查到后直接点击可看全文图像。
    试用后感觉应当引入一些现代元素。目前索引已有近4千万字,与全文1亿7千万字相比已在一个数量级上,如能配上全文检索,则可兼备查全与查准。退而求其次,也可不分索引类型,提供全字段检索,降低使用门槛、扩大用户范围,使没有很多古籍知识背景的人,也能从中《古今图书集成》这样的大型类书中挖掘出可资利用的资料。
    另:网上有台湾的《故宮東吳數位古今圖書集成》的演示版,故宫博物院与东吴大学合作出品,依据底本是“故宮典藏的雍正四年銅活字版掃瞄而得的五十四萬張圖檔”,“數位內文一億七千萬字”,演示版“放了《古今圖書集成·曆象彙編》四個分典,專供網路測試之用”。查询结果为当页文字,无图像。
    该产品由汉珍数位图书股份有限公司经销,据称“市面上已經有兩種類似產品,正向各單位兜銷中。甲產品出自我們委託代工輸入的公司,再多辯解,也無法避免侵犯我們權益之嫌。乙公司的資料購自大陸盜賣我們的資料,缺字與圖像都沒有就上市。”确实也查到另两家产品。明明是岛内问题,怎么也扯上大陆?
    据维基百科“古今图书集成”条目:
⊙本書編成後,於雍正四至六年(1726年至1728年)由清內府用銅活字排印成64部(未計試印本樣本1套),稱「銅字版」,至今僅存十餘部,在國家圖書館與台灣故宮博物館皆有藏。
⊙民國23年(1934年)上海中華書局據康有為所藏雍正銅活字本影印之縮印線裝裝訂808冊(後8冊為考證),稱「中華版」,於1940年出齊,是迄今最通行之版本。
⊙1999年起該全書在台灣以雍正銅字版(書藏故宮博物館)為藍本製作電子化版本(由東吳大學中文系負責)出售。
———-《中国索引》的分割线———-
中国索引学会网站有历年《中国索引》OA(发布略有延迟,目前最新为2010年第1期)。

高校图书馆能为研究提供哪些支持?

2010年12月19日

    很久不读印刷品了。今天看《图书情报工作动态》,真翻译了不少好内容,可以省掉看原文的辛苦。2010年第8期,有几篇让我想到高校图书馆和教师之间的关系,或者说教师对图书馆到底有什么需求或希望。为科研服务,一直是并且越来越成为高校图书馆追求的目标,那么,图书馆到底能提供哪些支持呢?

研究生涯:美国研究人员所需的信息支持 / Susan Kroll, Rick Forsman著;徐静编译. p.9-14

    OCLC今年7月发布的这份研究报告(A Slice of Research Life: Information Support for Research in the United States, pdf: 1.1MB/24 p.) ,是对美国4所著名大学38位研究人员访谈的结果。
    被调查者的选择方式值得推荐:“受访者名单主要由各学院院长帮助筛选。之所以通过学校而不是由图书馆馆员来罗列名单,主要是为了避免图书馆过多的推荐受其服务影响较大的研究人员。”(p.10)
    对调查结论的态度也值得称赞:“需要强调的是,本调查结果反映的是那些美国主要研究性大学的杰出研究人员和他们所在的学术圈的观点。所有的研究人员未必遵守相同的模式。可以想见,如果在其他情境下进行调研,或许会得出不同的结论。”(p.10)
    概述中的结论值得思考:“研究人员迅速适应了那些能够促进其工作的产品,同时拒绝使用那些易用性差、无法提供可观回报的工具和服务”。“研究人员与传统图书馆以及高校的关系已发生彻底的改变。由于时间的限制,他们通常偏好最适度、而不是最优的解决方法”。(p.9)在这种情况下,图书馆再以提供优质资源为号召,吸引力是有限的。

    研究者关心的问题及解决途径(信息工具及支撑服务):
⊙ 对资助机会的把握
    “直接接收的资助信息和从高校相关机构获取的信息已经足够及时掌握重要的项目资助信息了。而跨学科研究或国际研究……通过以上两种方式似乎还不充足,有必要扩大信息源”(p.10)
    [原PDF引语:资助来源明显、有限、易于掌握]
    [我国的情况可能差不多,高校科研处、社科处是主要信息来源及推动者。对于所谓横向课题,可类比于跨学科或国际研究,还存在可填补的空白]

⊙ 知识产权管理和商业价值的开发
    “本研究所调查的4所高校均设有相应的办公部门专门处理法律和技术转让问题。研究人员通常在需要的时候直接依赖这一部门。只有一两个受访者表示希望借助图书馆的服务,寻找有关版权和许可方面的信息,通过图书馆介绍学校里的其他专家进行咨询。”(p.11)
    [原PDF引语:我们被假定生产知识,为什么我们不公之于众?]
    [如果学校没有相应机构,而图书馆又有具有法律背景的馆员,也可以作为一种学科服务提供]

⊙ 寻找潜在合作者,扩大自身被发现的可能
    “Google、Web of Science、Google学术搜索以及在线专业出版物,通过这些渠道来识别哪些人正在进行相关的研究,并了解他们的个人背景。……个人之间的人际交往是决定是否开展合作的重要决定因素。个人介绍、会议间的谈话或者论文的演示都是选择合作者的依据。”(p.11)
    [原PDF引语:即使是初级教员也会很快找到合作者,两三年后就不需要更多合作者了]

⊙ 文件、数据集的管理与存储
    “尽管研究人员对某些正在使用的信息工具和服务表示满意,但这正是他们最不满意也是最受关注的部分。随着时间的推移,研究人员积累了大量的工作文档或者数据集。那些过时的记录载体(如:软盘)、过时的软件或者古董级编程语言会导致宝贵的前期工作记录无法使用。部分受访者更愿意直接重复先前的实验(来生成数据),而不是直接寻找原来的实验数据。尽管他们现在还没有面临文件、数据集方面的问题,但迟早会成为这一问题的受害者……”(p.11)
    “极少数高校成立了服务中心来存储、维护和检索研究文件和数据。在某些案例里,类似的服务是跨校提供的”。(p.11)
    “图书馆或专门的信息技术部门会兴建一个机构库(IR),研究人员可以将他们的作品提交到这个机构库里。但是受访者表示这个机构库只能说成功了一半。研究人员没有足够的时间向机构库上传作品,添加元数据或者合理地组织这些文件。本文认为,高校在收集、维护研究文档和数据集方面的工作普通[遍]不足”。(p.12)
    [原PDF引语1:我觉得每所大学都应建立一种体现数据集成价值的文化。]
    [原PDF引语2:你可能得到一堆数据,但无法识别其含义]
    [从报告看,目前的状况似乎是:问题显然存在,但还没有到让研究人员觉得必须解决的地步。而要使IR成功,馆员做数据上传、元数据标引及内容组织似乎不可避免。只是,目前的IR能够在多大程度上解决这个问题?过时软件等,是另一层面的问题,几乎不可解?]

⊙ 对大文本和数据文件的分析
    “对于数据分析,很多研究人员都感到沮丧,往往需要转交统计学家来处理”。“研究人员还依靠各种商业产品来定制所需的数据”。(p.12)
    [原PDF引语:程序员知道答案,但不知道问题;我有问题,但不知道答案。只有少数人同时了解两者。]
    [数据分析软件的使用培训,应该成为图书馆信息素养教育的一部分。本馆最近开设了SPSS使用讲座,很受欢迎。]

⊙ 提高信息检索与管理技能
    “所有的研究人员都将这一条列入非首选行列。……得益于Google以及Google学术搜索在挖掘孤立信息、检索出版物以及发现所感兴趣的内容方面的惊人效率,因此考虑到时间效率问题,研究人员提高检索能力的压力明显减轻。”“少数的受访者大致知道图书馆或者其他专门服务机构提供信息检索和管理方面的技能培训……但是,受访者普遍认为,只有在完成某一项新的研究项目而不得不去掌握某项新的技能时才会抽时间学习它”。(p.12)
    [原PDF引语:我曾经使用图书馆获取所有研究信息,但现在我使用Google Scholar。]
    [以数据库高级检索为中心的传统文检课,何去何从?]

⊙ 引文管理
    “另一个让研究人员感到失望和不满的问题就是引文的插入、存储和处理”。“虽然有些研究人员在他们早期的职业生涯中就已在引文管理软件里处理引文信息,但是绝大多数的人员依然是依靠微软的word程序处理引文”。(p.12)
    [原PDF引语:我试图使用RefWorks和EndNote,但太麻烦了。使用软件包无法与那些不使用者的协作]
    [插入引文是一回事,存储另一回事。似乎报告没有提到后者的解决之道,Word显然不是合适的管理软件。]

⊙ 选择出版商或选择传播形式
    “一些学者认为他们正处于研究生涯的一个新阶段,即发表论文对于长职和任期已不重要了,因此他们更愿意在开放期刊上发表研究成果,使得研究成果能够轻易的被整个研究领域访问到”。“然而,教授们也强烈希望研究生在传统的高影响力期刊上发表论文”。(p.12)
    [原PDF引语:你被告知必须在传统期刊上发文]
    [教授发OA期刊,研究生发传统期刊,如此传统高影响力期刊还能有影响力吗?至少在吾国,高影响力、高被引期刊列表,仍是图书馆可以做的事]

⊙ 对晋升职位和终身教职的支持(未提及)

⊙ 职业声望
    “研究人员承认他们很少花费时间在相关网站上撰写或修改职业履历信息,他们同时也对通过搜索到的他人个人信息的可靠性表示怀疑,例如Community of Science网站上的信息等。相反,他们非常关心自己研究成果在使用中的引证署名和他们研究数据的真实性证据”。(p.13)
    [原PDF引语:由于Google,一个人很难操控或隐藏信息,也不大可能“管理”自己的名声]
    [提供研究成果及引证数据,也是图书馆可以做的]

⊙ 对预印本、出版物和后印刷本的管理
    [原PDF引语1:我把预印本放在自己网站上,因为它比最终出版物中经编辑的版本更能体现我最初的研究。]
    [原PDF引语2:我曾存储PDF,现在则存储链接]
    [在吾国,愿意共享自己成果的研究人员似乎不多,愿意提供预印本的大概更少。IR的前景何以?]

结论(p.14):
1、易用、高效的工具和服务更受研究人员青睐
    “研究人员利用Google检索各种信息,他们知道这类搜索引擎的检索结果既不精确也不全面,但在大多数情况下,他们认为这样的结果已经很好了”。
2、电子期刊的出现正在重塑信息环境和研究过程
3、研究人员普遍缺少存储、维护、检索文件或数据集的管理策略
4、学术网络建立在人际关系之上
5、图书馆必须说明并开创自己的未来
    “研究人员并没有注意到大多数图书馆针对数字存取而进行的转变,也没有意识到专业图书馆员能够为他们的用户提供什么帮助,对于图书馆未来的发展也没什么想法。没有一个受访者表示最近到过图书馆。虽然研究人员普遍表示无力创建统一的、可共享的元数据和有序的存储策略,但是图书馆在这方面也没有提供多少有价值的帮助。研究人员需要实实在在的看到信息工具和服务的优势。高校图书馆可以通过开发和整合学科工具,以用户为中心开展个性化服务。”

    [其实结论很悲哀的,只是人为地加上了一句光明的结尾]

Google实验室新品Books Ngram Viewer:数据的可靠性

2010年12月18日

    Google实验室推出新产品Books Ngram Viewer,以图示形式显示/对比查询词在1800-2000年间图书中的词频,包括英、法、德、俄、西、汉六种文字。与Google搜索不同的是,查询词是区分大小写的。作为Google图书的一个副产品,在图示下还有查询词在Google图书搜索的链接,且根据词频,分不同的年段。
    《纽约时报》介绍文“五千亿单词、文化新视窗”(In 500 Billion Words, New Window on Culture, December 16, 2010),译言上的报道名“谷歌发布带有 520 万数字化图书数据的全新可视化工具”(2010-12-18)。
    基于520万图书、5千亿单词的语料库,如介绍所说,该产品以可视化方式揭示“语言、文学、文化随时间的变迁”,是“供学者们使用的全新量化工具”,的确很强大。然而,由于原始数据本身存在问题,对结果的影响显然是致命的。以如此结果为依据进行分析,其可靠性自然存疑。

其一、元数据问题

    随便找两个词“图书”和“图书馆”,图示结果如下:
Google Books Ngram Viewer

   可以明显看到“图书馆”一词在1900年前后进入第一个高峰,在1980年前后出现另一个高峰,均高于“图书”的出现频率。这是很有意思的现象。
    点击看1800-1906年段有“图书馆”一词的图书──数据(或元数据)错误暴露无遗。前5条没有一条年份是正确的:
√ 第1条:吉林大学 – 1906《全国高等院校社会科学学报 … 总目录》,命中内容“1923 5 图书馆事业之发展夏廷械”等
√ 第2条:广东省民族研究所, 广东省群众文化艺术馆 – 1900《民族民間艺术研究》Volume 2
√ 第3条:吉林省社会科学院, 吉林大学 – 1900《满铁史资料》Volume 4, Part 4,命中内容“1941 ,油印本(关于在日本内地抚顺煤与我国煤的调查门满铁会社(最近抚顺煤旷出煤情况门中国科学院图书馆存……”
√ 第4条:丁丙 – 1900《武林坊巷志》Volume 1,命中内容“为此、我们特将浙江省图书馆所珍藏的原稿,进行加工整理,分为八册出版,为社会主义精神文明建设, ^提供有价值的历史资料。”
√ 第5条:山西省社会科学硏究所 – 1900《山西革命回忆录》Volume 3
    除了第1条1906有点奇怪,其他估计是年份不明的都被当作1900年的了。
 
其二、字符识别问题

    Librarything的Tim使用Books Ngram Viewer发现,fuck这个流行骂人话不但历史悠久,而且在1700年前后远比现在流行。
Books Ngram Viewer-fuck
    查图书原文,当年的那个词其实是suck。因为早年字母有所谓“长s”,长像就是没有短横的f。而Google图书显然没能识别。
suck not fuck

Via Thing-ology Blog: Romeo and Juliet, with—Get your mind out the gutter! (DECEMBER 17TH, 2010)

———-无语的分割线———-
最近自己一直在为统计伤神。
给不甚准确的原始数据做统计,再……分析,其结果可信度有多少?

OpenDOAR的机构库统计

2010年12月15日

    已经有好几年,一直觉得机构库已是明日黄花,虽然看着数量不少,但库规模大的不多。最近因种种原因,又重新拾起来看。
    开放存取库名录(OpenDOAR)是了解总体情况的很好入口。网站首页突出显示目前收录超过1800家。曾记下2006年2月5日时为324家,看统计图,2006年以后似乎发展势头很好,一直在平稳向上。

查找
可以按主题领域内容类别(文章、图书、会议、数据集、学习对象、多媒体、专利、参考资源、软件、特殊、学位论文、未出版)、库类型(集合、学科、政府、机构)、国家语种软件6种途径交叉查询,每种在查询下拉框中都标明了数量。
按库类型,属于机构库的为1481个

√ 库内容搜索:采用Google定制搜索,而非OAI收割。试下来查不到结果,难道都拒绝Google机器人访问?

√ 库列表:按洲别、国家浏览。方便了解各大洲、各国情况。

统计
可以组合出各种统计图表,缺省的是世界范围的。
OpenDOAR统计一览
    从收录条数看,超过5万的有36个库(2%),其中很多不是机构库,如首位的ERIC(130万条)、第3位的PubMed Central(80万条)、第5位的arXiv(60万多条);也有一些应该是大学机构库,如排名14的英国剑桥大学DSpace@Cambridge(19万多条)、排名19的比利时根特大学学术书目与机构档案(12万条)。
在所有1815个库中,收录1万条以上的共184个库(10%)、5千条以上的共315个库(17%)、1千条以上的共771个库(42%)、5百条以上的共987个库(54%)──不到5百条的611个库(占1/3),还有216个库没有标明收录条数。

———-机构库软件———-
    机构库软件是DSpace(665)一家独大(超过1/3),Eprints(297)其次(近1/6),其后依次是Digital Commons(79),OPUS(54),余下都不超过30,Greenstone(24)第6位,听说过的还有ContentDM(17),Fedora(16),DigiTool(15),竟然还有WordPress(1)。

    最近常被推荐Drupal,有4家采用。查了下,加拿大爱德华王子岛大学的IslandScholar是规模最大的(10142条),说明是Drupal+Fedora,没有OAI-PMH网址。
    IslandScholar看内容是典型的大学机构库。有简单的技术说明(Technical Components),抄录如下:
1. Fedora (ver 2.2.4)
* Lucene – Indexing/searching
* MySQL – Database
* Mulgara – Resource Index
* XACML – Security
2. RuleEngine Framework – Rules for conversion processes
* OpenOffice conversion engine
* Searchable PDF
3. Drupal – ver 5.12
* igital Repository Module
** OpenSource module for connectivity  to FEDORA
** developed by UPEI
* Faculty Authentication with UPEI Credentials
** LDAP Module
* Book Module – Automatic Book menu generation
* Path Module – renaming of URL’s
* SpamSpam Module – obfuscates email addresses
* Printer Friendly Pages
4. Discovery/acquisition of Published Copy
* Sherpa/Romeo -auto-connects to display publisher permissions info for articles
* COINS support
** LibX UPEI Edition
* OpenURL
5. Refworks
* Compiling Collections
* Data Cleanup
* Creation of XML for import into FEDORA.
6. Programming Languages used
* PHP
* XML
* Java
* JavaScript
7. Operating System/Hardware
* SLEZ 10
* Dell PowerEdge
** Dual Quad Core CPU’s
** 16GB RAM

———-链接———-
从数字看开放存取(Open access) (2006-2-8)

中美数图研讨班(4)·机构库,看起来很美 (2007年5月27日)

知道你已经在做机构库了吗——摘评一份详尽的IR调查报告 (2007年5月28日)

国际机构库调查出版 (2007年11月14日)

台湾机构典藏(TAIR) (2008年7月25日)

香港大学投千万建“全民共享”学术库 (2010年06月07日)

PDA:电子图书的用户驱动采购

2010年12月14日
周日和张甲老师一起喝茶,听说了PDA──用户驱动采购(Patron-Driven Acquisition),据说这半年间忽然在美国红火起来,好多大学都采用这种方式购买电子图书。
其基本模式是:数据库商提供电子书的MARC记录,图书馆导入自动化系统,读者通过OPAC查到后,可以点击链接直接看原文。如果看不到5分钟,不收钱;如果超过5分钟到24小时,收取书价5%的费用;如果有3个人看了超过5分钟,就视为图书馆购买此书──对高价书(如超过$200)图书馆可设置需人工审核。
与以往电子资源包库采购,或者由馆员/读者在没有看到书的情况下选书方式相比,PDA模式显然更具有优势:采购来的文献都是读者确实需要的,避免了购入文献少人利用的现象;图书馆也可以形成自己的馆藏特色,改变馆藏趋同的现状。当然更现实的优势就是可以减少采购经费。不过如果换一个角度,这种模式是不是意味着图书馆专业性的进一步丧失?按下不表。
回家路上,对此讨论最多的,是这种模式在中国的适应性,换言之,如何避免数据库商作弊──如提供虚假使用数据,或者雇一些人点击造成虚假需求……。总之是橘逾淮为枳,因国人陋习而增加社会成本的例子不胜枚举。
———-分割线———-
查到的一些资料:
资源架(Research Shelf)今年6月的日志,摘录了美国大学出版社协会(AAUP)会议的一些信息,有参考价值:Libraries and Demand-Driven Acquisitions: Conference Session at AAUP (Association of American University Presses) (June 22, 2010 18:27)
日志还摘录了Eric Hellman的日志:Patron Driven eBook Acquisition: Crab Legs vs. Spinach
因为要翻墙,所以到Google阅读器里去找订阅(Go to Hellman),发现自己曾给这篇日志加了ebook的标签,却没有细看,主要是日志前面部分太八卦了。
耐着性子往下看,长篇日志内容相当丰富:
用户驱动采购(Patron-Driven Acquisition, PDA),也称:需求驱动采购(Demand-Driven Acquisition, DDA)
√ 德克萨斯大学(UT)电子书采购应用Ebook Library (EBL)提供的DDA计划:10万册电子书;读者可以检索与浏览电子书,浏览5分钟后弹出窗口,询问是否继续使用电子书,如继续则图书馆为此付费,该读者可继续使用此书10天;某书有第4次使用时自动“购买”,该书被加入图书馆永久馆藏;一旦购买,该书每年可被用365次(UT从未达到此域值)。
√ EBL的PDA模式源自图书馆向他们提出的建议,尤其是西澳大利亚Curtin大学的Alison Sutherland和欧洲原子能研究组织(CERN)的Jens Vigen,要求把记录放到目录中,但只在读者有需求时才购买。CERN图书馆服务对象都是世界顶级物理学家,他们绝对相信读者最知道他们要读的是什么。
世界上已有约150个图书馆使用EBL的DDA模式;更早的DDA形式是NetLibrary on Demand服务;ebrary去年也在测试PDA
√ 有意思的是,公共图书馆市场领袖Overdrive并未加入PDA模式,也少有公共图书馆参与。这可能反映了他们的资金状况,或者反映了图书馆员与出版社不愿相信公共图书馆读者对电子书采购的决定
√ 文后有涉及PDA的参考文献,包括会议与期刊文章等
√ ALA年会专题:Patron-Driven Access for E-Books: Have We Finally Found the Solution? Monday, June 28th, 8:00-10:00 am.
———-书商的PDA项目———-