标签: Google
Google实验室新品Books Ngram Viewer:数据的可靠性
Google实验室推出新产品Books Ngram Viewer,以图示形式显示/对比查询词在1800-2000年间图书中的词频,包括英、法、德、俄、西、汉六种文字。与Google搜索不同的是,查询词是区分大小写的。作为Google图书的一个副产品,在图示下还有查询词在Google图书搜索的链接,且根据词频,分不同的年段。
《纽约时报》介绍文“五千亿单词、文化新视窗”(In 500 Billion Words, New Window on Culture, December 16, 2010),译言上的报道名“谷歌发布带有 520 万数字化图书数据的全新可视化工具”(2010-12-18)。
基于520万图书、5千亿单词的语料库,如介绍所说,该产品以可视化方式揭示“语言、文学、文化随时间的变迁”,是“供学者们使用的全新量化工具”,的确很强大。然而,由于原始数据本身存在问题,对结果的影响显然是致命的。以如此结果为依据进行分析,其可靠性自然存疑。
其一、元数据问题
可以明显看到“图书馆”一词在1900年前后进入第一个高峰,在1980年前后出现另一个高峰,均高于“图书”的出现频率。这是很有意思的现象。
点击看1800-1906年段有“图书馆”一词的图书──数据(或元数据)错误暴露无遗。前5条没有一条年份是正确的:
√ 第1条:吉林大学 – 1906《全国高等院校社会科学学报 … 总目录》,命中内容“1923 5 图书馆事业之发展夏廷械”等
√ 第2条:广东省民族研究所, 广东省群众文化艺术馆 – 1900《民族民間艺术研究》Volume 2
√ 第3条:吉林省社会科学院, 吉林大学 – 1900《满铁史资料》Volume 4, Part 4,命中内容“1941 ,油印本(关于在日本内地抚顺煤与我国煤的调查门满铁会社(最近抚顺煤旷出煤情况门中国科学院图书馆存……”
√ 第4条:丁丙 – 1900《武林坊巷志》Volume 1,命中内容“为此、我们特将浙江省图书馆所珍藏的原稿,进行加工整理,分为八册出版,为社会主义精神文明建设, ^提供有价值的历史资料。”
√ 第5条:山西省社会科学硏究所 – 1900《山西革命回忆录》Volume 3
除了第1条1906有点奇怪,其他估计是年份不明的都被当作1900年的了。
其二、字符识别问题
Librarything的Tim使用Books Ngram Viewer发现,fuck这个流行骂人话不但历史悠久,而且在1700年前后远比现在流行。
查图书原文,当年的那个词其实是suck。因为早年字母有所谓“长s”,长像就是没有短横的f。而Google图书显然没能识别。
Via Thing-ology Blog: Romeo and Juliet, with—Get your mind out the gutter! (DECEMBER 17TH, 2010)
———-无语的分割线———-
最近自己一直在为统计伤神。
给不甚准确的原始数据做统计,再……分析,其结果可信度有多少?
TencentTraveler是什么?
想了解上学期上线的手机网站访问情况,请同事导出服务器日志,去掉搜索引擎机器人记录后进行统计。曾经在上线后不久试做过一次统计,当时标记了搜索引擎机器人的IP段。对照这次的统计结果,发现其中还是有一些机器人的IP,查出其中一个是TencentTraveler,从名称看应该是腾讯的。问同事,同事说查了,是腾讯的浏览器、并非机器人,并发来搜索结果的部分截屏。
有点疑惑,自己搜索一下,当然用的是Google。前三条都指TencentTraveler为机器人、蜘蛛,首页结果为机器人和浏览器的各五条。随手发了其中两个抱怨TencentTraveler的链接给同事,然后问她是用什么搜索的,答曰百度。于是改用百度搜索,首页全都是“腾讯TT浏览器”,第二页倒数第二个才提到它是蜘蛛。无语了。
又一个事实说明,用什么搜索引擎不是无所谓的。
同事说她之所以没用Google,是因为搜索结果出来很慢。这就是我们的杯具。没有碰到过结果出来慢的情况,只有更无语的忽然间无法访问。总而言之,就是用不那么舒服的各种体验,逼着你放弃Google。