CNKI知识搜索

今天一朋友说知网的“图形搜索”和“表格搜索”挺好的,问是不是还有类似的细化搜索数据库。很惭愧的是,自己一直习惯于从图书馆订购入口使用CNKI,特别入口的,除了引文数据库,不记得以前用过有“图形搜索”和“表格搜索”的CNKI知识搜索
CNKI知识搜索包括以下9种垂直搜索,检索范围为CNKI收录文献全文(除“学术资源”):
1 文献搜索:精确完整的搜索结果、独具特色的文献排序与聚类,是您科研的得力助手
2 学术定义:写论文需要引用权威的术语定义怎么办?CNKI学术定义搜索帮您轻松解决
3 数字搜索:“一切用数字说话”,CNKI数字搜索让您的工作、生活、学习和研究变得简单而明白
4 学术趋势:关注学术热点,展示学术发展历程,发现经典文献,尽在CNKI学术趋势
5 翻译助手:文献、术语中英互译的好帮手,词汇句子段落应有尽有
6 学术资源:全面的学术资源网站导航
7 图形搜索:各专业珍贵的学术图片,研究成果和复杂流程的直观展现
8 表格搜索:各专业珍贵的学术图表,为您汇总、对比各类信息数据提供方便
9 工具书馆
以“元数据”为检索词试用,以下按可用性排序:
7 图形搜索/8 表格搜索:搜索范围是图表标题与文献标题(篇名),这个范围应该是合理的。搜索结果直接显示(图形是小图,点击后为大图),没有登录要求。有文献出处与页码(非图表页码),效果不错。
4 学术趋势:像Google趋势一样显示搜索词的在1996-2008年的相对量,右侧显示“热点年份相关高频被引文章”及“热点月份相关高频浏览文章”,对了解受关注文献很有用。可惜数据只到2008年。
9 工具书馆:可查词条、词目,针对的是辞典、百科全书、年鉴、标准、图录等工具书,显示词条片断,标明来源。阅读全文需要订购。
1 文献搜索:缺省检索“主题”,也可在全文、标题、关键字、作者及摘要中检索,可以按相关度、被引次数、下载次数及时间排序,可限定来源数据库(期刊、学位论文、会议、报纸、科技成果、专利、标准)和学科分类。可用,不过没发现比总库更好用。
6 学术资源:像很多学科导航一样,没有可持续性
2 学术定义/5 翻译助手:一直进不去,没用成。记得以前曾经在搜索引擎里碰到过,与图表搜索类似,是从CNKI收录文献中抽取片断。
3 数字搜索:似乎只要全文中检索词所在段落有数字都会命中,可用性存疑。在600条命中记录中,数字大多不具有检索意义,当然也许是使用“元数据”检索本身不合理。无意义的结果包括:文章作者单位邮政编码(大概与摘要算做同一段落)、提及的本文小节号、参考文献编号等。
网站下面标的是2008,看“学术趋势”的数据也只到2008年,难道CNKI知识搜索是一个被废弃了的园子?

《古今图书集成》网络版

    《古今图书集成》可以在CADAL(大学数字图书馆国际合作计划)的“古籍”部分查到并公开访问全文,实为中华书局影印本。
    今天看到《中国索引》2010年(第8卷)第4期载文“《古今图书集成索引》网络版推出”(p.60),前往一观。
    广西大学古籍整理研究所的《古今图书集成·索引&全书图像》,不但可以公开访问全文图像,还可以通过索引定位内容。
    “網站所擁有的全書圖像來自對1934年中華書局武英殿本影印本的掃描,本站所使用的索引自1984年我們開始編製《古今圖書集成索引》起,經歷了油印本(1984年,80萬字,三大本)、印刷本(1988年,275萬字,中華書局和巴蜀書社出版)、電子版1.0版(1998年,1200萬字,金海灣電子音像出版社和廣西師範大學出版社聯合出版)、電子版2.0版(2007年,3800萬,光盤版,待出版;2009年網絡版)等四個階段。索引數據不斷擴充完善。”上述文章称2010年制成网络版,网站留言最早是2010年4月。
    真是四分之一世纪的用心之作!采用传统索引方式,除“经纬目录”外,“索引部分建立52个标目式多字段索引,合计1189013条记录,共38359673字”。52个索引分别对应于图表类、列传类、引书类、文学艺术类、天文类、历史古籍类、行政区划类、医药卫生类、经济类、生物类、宗教类,适合精确检索
    默认为繁体字版,输入简体字检索无结果;可切换到简化字版。查到后直接点击可看全文图像。
    试用后感觉应当引入一些现代元素。目前索引已有近4千万字,与全文1亿7千万字相比已在一个数量级上,如能配上全文检索,则可兼备查全与查准。退而求其次,也可不分索引类型,提供全字段检索,降低使用门槛、扩大用户范围,使没有很多古籍知识背景的人,也能从中《古今图书集成》这样的大型类书中挖掘出可资利用的资料。
    另:网上有台湾的《故宮東吳數位古今圖書集成》的演示版,故宫博物院与东吴大学合作出品,依据底本是“故宮典藏的雍正四年銅活字版掃瞄而得的五十四萬張圖檔”,“數位內文一億七千萬字”,演示版“放了《古今圖書集成·曆象彙編》四個分典,專供網路測試之用”。查询结果为当页文字,无图像。
    该产品由汉珍数位图书股份有限公司经销,据称“市面上已經有兩種類似產品,正向各單位兜銷中。甲產品出自我們委託代工輸入的公司,再多辯解,也無法避免侵犯我們權益之嫌。乙公司的資料購自大陸盜賣我們的資料,缺字與圖像都沒有就上市。”确实也查到另两家产品。明明是岛内问题,怎么也扯上大陆?
    据维基百科“古今图书集成”条目:
⊙本書編成後,於雍正四至六年(1726年至1728年)由清內府用銅活字排印成64部(未計試印本樣本1套),稱「銅字版」,至今僅存十餘部,在國家圖書館與台灣故宮博物館皆有藏。
⊙民國23年(1934年)上海中華書局據康有為所藏雍正銅活字本影印之縮印線裝裝訂808冊(後8冊為考證),稱「中華版」,於1940年出齊,是迄今最通行之版本。
⊙1999年起該全書在台灣以雍正銅字版(書藏故宮博物館)為藍本製作電子化版本(由東吳大學中文系負責)出售。
———-《中国索引》的分割线———-
中国索引学会网站有历年《中国索引》OA(发布略有延迟,目前最新为2010年第1期)。

Google实验室新品Books Ngram Viewer:数据的可靠性

Google实验室推出新产品Books Ngram Viewer,以图示形式显示/对比查询词在1800-2000年间图书中的词频,包括英、法、德、俄、西、汉六种文字。与Google搜索不同的是,查询词是区分大小写的。作为Google图书的一个副产品,在图示下还有查询词在Google图书搜索的链接,且根据词频,分不同的年段。
《纽约时报》介绍文“五千亿单词、文化新视窗”(In 500 Billion Words, New Window on Culture, December 16, 2010),译言上的报道名“谷歌发布带有 520 万数字化图书数据的全新可视化工具”(2010-12-18)。
基于520万图书、5千亿单词的语料库,如介绍所说,该产品以可视化方式揭示“语言、文学、文化随时间的变迁”,是“供学者们使用的全新量化工具”,的确很强大。然而,由于原始数据本身存在问题,对结果的影响显然是致命的。以如此结果为依据进行分析,其可靠性自然存疑。

其一、元数据问题

随便找两个词“图书”和“图书馆”,图示结果如下:
Google Books Ngram Viewer

可以明显看到“图书馆”一词在1900年前后进入第一个高峰,在1980年前后出现另一个高峰,均高于“图书”的出现频率。这是很有意思的现象。
点击看1800-1906年段有“图书馆”一词的图书──数据(或元数据)错误暴露无遗。前5条没有一条年份是正确的:
√ 第1条:吉林大学 – 1906《全国高等院校社会科学学报 … 总目录》,命中内容“1923 5 图书馆事业之发展夏廷械”等
√ 第2条:广东省民族研究所, 广东省群众文化艺术馆 – 1900《民族民間艺术研究》Volume 2
√ 第3条:吉林省社会科学院, 吉林大学 – 1900《满铁史资料》Volume 4, Part 4,命中内容“1941 ,油印本(关于在日本内地抚顺煤与我国煤的调查门满铁会社(最近抚顺煤旷出煤情况门中国科学院图书馆存……”
√ 第4条:丁丙 – 1900《武林坊巷志》Volume 1,命中内容“为此、我们特将浙江省图书馆所珍藏的原稿,进行加工整理,分为八册出版,为社会主义精神文明建设, ^提供有价值的历史资料。”
√ 第5条:山西省社会科学硏究所 – 1900《山西革命回忆录》Volume 3
除了第1条1906有点奇怪,其他估计是年份不明的都被当作1900年的了。

其二、字符识别问题

Librarything的Tim使用Books Ngram Viewer发现,fuck这个流行骂人话不但历史悠久,而且在1700年前后远比现在流行。
Books Ngram Viewer-fuck
查图书原文,当年的那个词其实是suck。因为早年字母有所谓“长s”,长像就是没有短横的f。而Google图书显然没能识别。
suck not fuck

Via Thing-ology Blog: Romeo and Juliet, with—Get your mind out the gutter! (DECEMBER 17TH, 2010)

———-无语的分割线———-
最近自己一直在为统计伤神。
给不甚准确的原始数据做统计,再……分析,其结果可信度有多少?