《古今图书集成》网络版

    《古今图书集成》可以在CADAL(大学数字图书馆国际合作计划)的“古籍”部分查到并公开访问全文,实为中华书局影印本。
    今天看到《中国索引》2010年(第8卷)第4期载文“《古今图书集成索引》网络版推出”(p.60),前往一观。
    广西大学古籍整理研究所的《古今图书集成·索引&全书图像》,不但可以公开访问全文图像,还可以通过索引定位内容。
    “網站所擁有的全書圖像來自對1934年中華書局武英殿本影印本的掃描,本站所使用的索引自1984年我們開始編製《古今圖書集成索引》起,經歷了油印本(1984年,80萬字,三大本)、印刷本(1988年,275萬字,中華書局和巴蜀書社出版)、電子版1.0版(1998年,1200萬字,金海灣電子音像出版社和廣西師範大學出版社聯合出版)、電子版2.0版(2007年,3800萬,光盤版,待出版;2009年網絡版)等四個階段。索引數據不斷擴充完善。”上述文章称2010年制成网络版,网站留言最早是2010年4月。
    真是四分之一世纪的用心之作!采用传统索引方式,除“经纬目录”外,“索引部分建立52个标目式多字段索引,合计1189013条记录,共38359673字”。52个索引分别对应于图表类、列传类、引书类、文学艺术类、天文类、历史古籍类、行政区划类、医药卫生类、经济类、生物类、宗教类,适合精确检索
    默认为繁体字版,输入简体字检索无结果;可切换到简化字版。查到后直接点击可看全文图像。
    试用后感觉应当引入一些现代元素。目前索引已有近4千万字,与全文1亿7千万字相比已在一个数量级上,如能配上全文检索,则可兼备查全与查准。退而求其次,也可不分索引类型,提供全字段检索,降低使用门槛、扩大用户范围,使没有很多古籍知识背景的人,也能从中《古今图书集成》这样的大型类书中挖掘出可资利用的资料。
    另:网上有台湾的《故宮東吳數位古今圖書集成》的演示版,故宫博物院与东吴大学合作出品,依据底本是“故宮典藏的雍正四年銅活字版掃瞄而得的五十四萬張圖檔”,“數位內文一億七千萬字”,演示版“放了《古今圖書集成·曆象彙編》四個分典,專供網路測試之用”。查询结果为当页文字,无图像。
    该产品由汉珍数位图书股份有限公司经销,据称“市面上已經有兩種類似產品,正向各單位兜銷中。甲產品出自我們委託代工輸入的公司,再多辯解,也無法避免侵犯我們權益之嫌。乙公司的資料購自大陸盜賣我們的資料,缺字與圖像都沒有就上市。”确实也查到另两家产品。明明是岛内问题,怎么也扯上大陆?
    据维基百科“古今图书集成”条目:
⊙本書編成後,於雍正四至六年(1726年至1728年)由清內府用銅活字排印成64部(未計試印本樣本1套),稱「銅字版」,至今僅存十餘部,在國家圖書館與台灣故宮博物館皆有藏。
⊙民國23年(1934年)上海中華書局據康有為所藏雍正銅活字本影印之縮印線裝裝訂808冊(後8冊為考證),稱「中華版」,於1940年出齊,是迄今最通行之版本。
⊙1999年起該全書在台灣以雍正銅字版(書藏故宮博物館)為藍本製作電子化版本(由東吳大學中文系負責)出售。
———-《中国索引》的分割线———-
中国索引学会网站有历年《中国索引》OA(发布略有延迟,目前最新为2010年第1期)。

Google实验室新品Books Ngram Viewer:数据的可靠性

Google实验室推出新产品Books Ngram Viewer,以图示形式显示/对比查询词在1800-2000年间图书中的词频,包括英、法、德、俄、西、汉六种文字。与Google搜索不同的是,查询词是区分大小写的。作为Google图书的一个副产品,在图示下还有查询词在Google图书搜索的链接,且根据词频,分不同的年段。
《纽约时报》介绍文“五千亿单词、文化新视窗”(In 500 Billion Words, New Window on Culture, December 16, 2010),译言上的报道名“谷歌发布带有 520 万数字化图书数据的全新可视化工具”(2010-12-18)。
基于520万图书、5千亿单词的语料库,如介绍所说,该产品以可视化方式揭示“语言、文学、文化随时间的变迁”,是“供学者们使用的全新量化工具”,的确很强大。然而,由于原始数据本身存在问题,对结果的影响显然是致命的。以如此结果为依据进行分析,其可靠性自然存疑。

其一、元数据问题

随便找两个词“图书”和“图书馆”,图示结果如下:
Google Books Ngram Viewer

可以明显看到“图书馆”一词在1900年前后进入第一个高峰,在1980年前后出现另一个高峰,均高于“图书”的出现频率。这是很有意思的现象。
点击看1800-1906年段有“图书馆”一词的图书──数据(或元数据)错误暴露无遗。前5条没有一条年份是正确的:
√ 第1条:吉林大学 – 1906《全国高等院校社会科学学报 … 总目录》,命中内容“1923 5 图书馆事业之发展夏廷械”等
√ 第2条:广东省民族研究所, 广东省群众文化艺术馆 – 1900《民族民間艺术研究》Volume 2
√ 第3条:吉林省社会科学院, 吉林大学 – 1900《满铁史资料》Volume 4, Part 4,命中内容“1941 ,油印本(关于在日本内地抚顺煤与我国煤的调查门满铁会社(最近抚顺煤旷出煤情况门中国科学院图书馆存……”
√ 第4条:丁丙 – 1900《武林坊巷志》Volume 1,命中内容“为此、我们特将浙江省图书馆所珍藏的原稿,进行加工整理,分为八册出版,为社会主义精神文明建设, ^提供有价值的历史资料。”
√ 第5条:山西省社会科学硏究所 – 1900《山西革命回忆录》Volume 3
除了第1条1906有点奇怪,其他估计是年份不明的都被当作1900年的了。

其二、字符识别问题

Librarything的Tim使用Books Ngram Viewer发现,fuck这个流行骂人话不但历史悠久,而且在1700年前后远比现在流行。
Books Ngram Viewer-fuck
查图书原文,当年的那个词其实是suck。因为早年字母有所谓“长s”,长像就是没有短横的f。而Google图书显然没能识别。
suck not fuck

Via Thing-ology Blog: Romeo and Juliet, with—Get your mind out the gutter! (DECEMBER 17TH, 2010)

———-无语的分割线———-
最近自己一直在为统计伤神。
给不甚准确的原始数据做统计,再……分析,其结果可信度有多少?

《晚清期刊全文库(1833-1910)》试用记

前些日子走过图书馆大厅,看到《晚清期刊全文库(1833-1910)》的广告,很有兴趣,《全国报刊索引》终于推出全文数据库了。
今天得知镜像版安装完成,马上试用,界面就是《全国报刊索引》电子版。
1、检索条件:完全沿用《全国报刊索引》,所以部分字段(如作者单位、基金项目、主题词)完全虚设。可以全字段检索。没有全文检索。
摘要:能查出相当多的结果,由于检索结果细览中没有显示摘要,所以不清楚摘要与全文间的关系──晚清期刊中应该不会包括文摘吧?难道是人工标引的?
分类号:从检索结果看,大多数文章都没有分类号,实际检索的是期刊的分类号(部分期刊入多个类),对文章而言没有检索价值。
2、检索方式:除“在结果中检索”外,还有“在结果中添加”、“在结果中去除”,尤其是后者,在精确检索中会很有用。
3、检索结果一览:检索词高亮显示,题名、作者、刊名有超链接,进一步检索很方便。可勾选“添加到导出列表”,便于保存检索结果。可直接下载PDF全文[扫描图像],这是比较赞的设计。
4、检索结果侧栏分面:文献来源、年份,有分布饼图。缺省显示10个,可扩展至最多30个。便于缩检。
5、检索结果细览:不显示“摘要”字段,甚至信息都没有结果一览多,不足以做参考文献引用。这是最大的败笔。
以“绍介:最新科学读本初编”为例:
结果一览显示:1904年 [第一卷 第3期](无页码信息)
细览显示:年,卷(期).页码:  1904(无卷、期、页)
PDF全文显示:第三期 三十七[页]
6、文献来源导航:应该是《全国报刊索引》的期刊一览表,换言之,没有独立的《晚清期刊全文库》收录期刊表。
———-收录期刊与文章的分割线———-
“《晚清期刊全文数据库》共收录了1833年到1910年间三百余种期刊,涵盖了晚清包括鸦片战争、洋务运动、戊戌变法和辛亥革命等重要时期出版的所有刊物,拥有众多的期刊之最!”“二十五万余篇的珍贵史料,便捷的检索方式,用户可通过题名、著者、刊名、年份、期号等各种方式迅速检索、定位、浏览和全文下载。”
经查,收录文章总数252960,如何得到?自己试一下就有了。
究竟有哪些期刊(应该是报刊)呢?通过检索“分类号”+文献来源分面(最多30种),去重后得到170种(大概只有一半)。按文章数量排序,文章量占总数1%以上的有20种报刊,累计55%,《益闻录》又占其中的1/3。
刊名(文章数) 文章百分比 累计百分比
益闻录(43636) 17.3% 17.3%
广益丛报(10819) 4.3% 21.5%
大同报(上海)(10788) 4.3% 25.8%
东方杂志(7500) 3.0% 28.8%
四川官报(6779) 2.7% 31.4%
外交报(6594) 2.6% 34.0%
通问报:耶稣教家庭新闻(5808) 2.3% 36.3%
新民丛报(5659) 2.2% 38.6%
鹭江报(5179) 2.0% 40.6%
大陆(上海1902)(4431) 1.8% 42.4%
知新报(4337) 1.7% 44.1%
国粹学报(3951) 1.6% 45.7%
政艺通报(3484) 1.4% 47.0%
清议报(3078) 1.2% 48.2%
圣心报(3067) 1.2% 49.5%
通学报(3005) 1.2% 50.6%
集成报(2998) 1.2% 51.8%
振华五日大事记(2726) 1.1% 52.9%
湖北商务报(2628) 1.0% 53.9%
中国教会新报(2562) 1.0% 55.0%