乐此不疲 – 第 23 页 – 编目精灵III

CNKI知识搜索

今天一朋友说知网的“图形搜索”和“表格搜索”挺好的，问是不是还有类似的细化搜索数据库。很惭愧的是，自己一直习惯于从图书馆订购入口使用CNKI，特别入口的，除了引文数据库，不记得以前用过有“图形搜索”和“表格搜索”的CNKI知识搜索。

—

CNKI知识搜索包括以下9种垂直搜索，检索范围为CNKI收录文献全文（除“学术资源”）：

1 文献搜索：精确完整的搜索结果、独具特色的文献排序与聚类，是您科研的得力助手

2 学术定义：写论文需要引用权威的术语定义怎么办？CNKI学术定义搜索帮您轻松解决

3 数字搜索：“一切用数字说话”，CNKI数字搜索让您的工作、生活、学习和研究变得简单而明白

4 学术趋势：关注学术热点，展示学术发展历程，发现经典文献，尽在CNKI学术趋势

5 翻译助手：文献、术语中英互译的好帮手，词汇句子段落应有尽有

6 学术资源：全面的学术资源网站导航

7 图形搜索：各专业珍贵的学术图片，研究成果和复杂流程的直观展现

8 表格搜索：各专业珍贵的学术图表，为您汇总、对比各类信息数据提供方便

9 工具书馆

—

以“元数据”为检索词试用，以下按可用性排序：

7 图形搜索/8 表格搜索：搜索范围是图表标题与文献标题（篇名），这个范围应该是合理的。搜索结果直接显示（图形是小图，点击后为大图），没有登录要求。有文献出处与页码（非图表页码），效果不错。

4 学术趋势：像Google趋势一样显示搜索词的在1996-2008年的相对量，右侧显示“热点年份相关高频被引文章”及“热点月份相关高频浏览文章”，对了解受关注文献很有用。可惜数据只到2008年。

9 工具书馆：可查词条、词目，针对的是辞典、百科全书、年鉴、标准、图录等工具书，显示词条片断，标明来源。阅读全文需要订购。

1 文献搜索：缺省检索“主题”，也可在全文、标题、关键字、作者及摘要中检索，可以按相关度、被引次数、下载次数及时间排序，可限定来源数据库（期刊、学位论文、会议、报纸、科技成果、专利、标准）和学科分类。可用，不过没发现比总库更好用。

6 学术资源：像很多学科导航一样，没有可持续性

2 学术定义/5 翻译助手：一直进不去，没用成。记得以前曾经在搜索引擎里碰到过，与图表搜索类似，是从CNKI收录文献中抽取片断。

3 数字搜索：似乎只要全文中检索词所在段落有数字都会命中，可用性存疑。在600条命中记录中，数字大多不具有检索意义，当然也许是使用“元数据”检索本身不合理。无意义的结果包括：文章作者单位邮政编码（大概与摘要算做同一段落）、提及的本文小节号、参考文献编号等。

—

网站下面标的是2008，看“学术趋势”的数据也只到2008年，难道CNKI知识搜索是一个被废弃了的园子？

《古今图书集成》网络版

《古今图书集成》可以在CADAL（大学数字图书馆国际合作计划）的“古籍”部分查到并公开访问全文，实为中华书局影印本。

今天看到《中国索引》2010年（第8卷）第4期载文“《古今图书集成索引》网络版推出”(p.60)，前往一观。

广西大学古籍整理研究所的《古今图书集成·索引&全书图像》，不但可以公开访问全文图像，还可以通过索引定位内容。

“網站所擁有的全書圖像來自對1934年中華書局武英殿本影印本的掃描，本站所使用的索引自1984年我們開始編製《古今圖書集成索引》起，經歷了油印本（1984年，80萬字，三大本）、印刷本（1988年，275萬字，中華書局和巴蜀書社出版）、電子版1.0版（1998年，1200萬字，金海灣電子音像出版社和廣西師範大學出版社聯合出版）、電子版2.0版（2007年，3800萬，光盤版，待出版；2009年網絡版）等四個階段。索引數據不斷擴充完善。”上述文章称2010年制成网络版，网站留言最早是2010年4月。

真是四分之一世纪的用心之作！采用传统索引方式，除“经纬目录”外，“索引部分建立52个标目式多字段索引，合计1189013条记录，共38359673字”。52个索引分别对应于图表类、列传类、引书类、文学艺术类、天文类、历史古籍类、行政区划类、医药卫生类、经济类、生物类、宗教类，适合精确检索。

默认为繁体字版，输入简体字检索无结果；可切换到简化字版。查到后直接点击可看全文图像。

试用后感觉应当引入一些现代元素。目前索引已有近4千万字，与全文1亿7千万字相比已在一个数量级上，如能配上全文检索，则可兼备查全与查准。退而求其次，也可不分索引类型，提供全字段检索，降低使用门槛、扩大用户范围，使没有很多古籍知识背景的人，也能从中《古今图书集成》这样的大型类书中挖掘出可资利用的资料。

另：网上有台湾的《故宮東吳數位古今圖書集成》的演示版，故宫博物院与东吴大学合作出品，依据底本是“故宮典藏的雍正四年銅活字版掃瞄而得的五十四萬張圖檔”，“數位內文一億七千萬字”，演示版“放了《古今圖書集成·曆象彙編》四個分典，專供網路測試之用”。查询结果为当页文字，无图像。

该产品由汉珍数位图书股份有限公司经销，据称“市面上已經有兩種類似產品，正向各單位兜銷中。甲產品出自我們委託代工輸入的公司，再多辯解，也無法避免侵犯我們權益之嫌。乙公司的資料購自大陸盜賣我們的資料，缺字與圖像都沒有就上市。”确实也查到另两家产品。明明是岛内问题，怎么也扯上大陆？

据维基百科“古今图书集成”条目：

⊙本書編成後，於雍正四至六年（1726年至1728年）由清內府用銅活字排印成64部（未計試印本樣本1套），稱「銅字版」，至今僅存十餘部，在國家圖書館與台灣故宮博物館皆有藏。

⊙民國23年（1934年）上海中華書局據康有為所藏雍正銅活字本影印之縮印線裝裝訂808冊（後8冊為考證），稱「中華版」，於1940年出齊，是迄今最通行之版本。

⊙1999年起該全書在台灣以雍正銅字版（書藏故宮博物館）為藍本製作電子化版本（由東吳大學中文系負責）出售。

———-《中国索引》的分割线———-

中国索引学会网站有历年《中国索引》OA（发布略有延迟，目前最新为2010年第1期）。

Google实验室新品Books Ngram Viewer：数据的可靠性

Google实验室推出新产品Books Ngram Viewer，以图示形式显示/对比查询词在1800-2000年间图书中的词频，包括英、法、德、俄、西、汉六种文字。与Google搜索不同的是，查询词是区分大小写的。作为Google图书的一个副产品，在图示下还有查询词在Google图书搜索的链接，且根据词频，分不同的年段。
《纽约时报》介绍文“五千亿单词、文化新视窗”(In 500 Billion Words, New Window on Culture, December 16, 2010)，译言上的报道名“谷歌发布带有 520 万数字化图书数据的全新可视化工具”(2010-12-18)。
基于520万图书、5千亿单词的语料库，如介绍所说，该产品以可视化方式揭示“语言、文学、文化随时间的变迁”，是“供学者们使用的全新量化工具”，的确很强大。然而，由于原始数据本身存在问题，对结果的影响显然是致命的。以如此结果为依据进行分析，其可靠性自然存疑。

其一、元数据问题

随便找两个词“图书”和“图书馆”，图示结果如下：

可以明显看到“图书馆”一词在1900年前后进入第一个高峰，在1980年前后出现另一个高峰，均高于“图书”的出现频率。这是很有意思的现象。
点击看1800-1906年段有“图书馆”一词的图书──数据（或元数据）错误暴露无遗。前5条没有一条年份是正确的：
√ 第1条：吉林大学 – 1906《全国高等院校社会科学学报 … 总目录》，命中内容“1923 5 图书馆事业之发展夏廷械”等
√ 第2条：广东省民族研究所, 广东省群众文化艺术馆 – 1900《民族民間艺术研究》Volume 2
√ 第3条：吉林省社会科学院, 吉林大学 – 1900《满铁史资料》Volume 4, Part 4，命中内容“1941 ,油印本(关于在日本内地抚顺煤与我国煤的调查门满铁会社(最近抚顺煤旷出煤情况门中国科学院图书馆存……”
√ 第4条：丁丙 – 1900《武林坊巷志》Volume 1，命中内容“为此、我们特将浙江省图书馆所珍藏的原稿,进行加工整理,分为八册出版,为社会主义精神文明建设, ^提供有价值的历史资料。”
√ 第5条：山西省社会科学硏究所 – 1900《山西革命回忆录》Volume 3
除了第1条1906有点奇怪，其他估计是年份不明的都被当作1900年的了。

其二、字符识别问题

Librarything的Tim使用Books Ngram Viewer发现，fuck这个流行骂人话不但历史悠久，而且在1700年前后远比现在流行。
Books Ngram Viewer-fuck
查图书原文，当年的那个词其实是suck。因为早年字母有所谓“长s”，长像就是没有短横的f。而Google图书显然没能识别。
suck not fuck

Via Thing-ology Blog: Romeo and Juliet, with—Get your mind out the gutter! (DECEMBER 17TH, 2010)

———-无语的分割线———-
最近自己一直在为统计伤神。
给不甚准确的原始数据做统计，再……分析，其结果可信度有多少？