Google实验室新品Books Ngram Viewer：数据的可靠性

Google实验室推出新产品Books Ngram Viewer，以图示形式显示/对比查询词在1800-2000年间图书中的词频，包括英、法、德、俄、西、汉六种文字。与Google搜索不同的是，查询词是区分大小写的。作为Google图书的一个副产品，在图示下还有查询词在Google图书搜索的链接，且根据词频，分不同的年段。
《纽约时报》介绍文“五千亿单词、文化新视窗”(In 500 Billion Words, New Window on Culture, December 16, 2010)，译言上的报道名“谷歌发布带有 520 万数字化图书数据的全新可视化工具”(2010-12-18)。
基于520万图书、5千亿单词的语料库，如介绍所说，该产品以可视化方式揭示“语言、文学、文化随时间的变迁”，是“供学者们使用的全新量化工具”，的确很强大。然而，由于原始数据本身存在问题，对结果的影响显然是致命的。以如此结果为依据进行分析，其可靠性自然存疑。

其一、元数据问题

随便找两个词“图书”和“图书馆”，图示结果如下：

可以明显看到“图书馆”一词在1900年前后进入第一个高峰，在1980年前后出现另一个高峰，均高于“图书”的出现频率。这是很有意思的现象。
点击看1800-1906年段有“图书馆”一词的图书──数据（或元数据）错误暴露无遗。前5条没有一条年份是正确的：
√ 第1条：吉林大学 – 1906《全国高等院校社会科学学报 … 总目录》，命中内容“1923 5 图书馆事业之发展夏廷械”等
√ 第2条：广东省民族研究所, 广东省群众文化艺术馆 – 1900《民族民間艺术研究》Volume 2
√ 第3条：吉林省社会科学院, 吉林大学 – 1900《满铁史资料》Volume 4, Part 4，命中内容“1941 ,油印本(关于在日本内地抚顺煤与我国煤的调查门满铁会社(最近抚顺煤旷出煤情况门中国科学院图书馆存……”
√ 第4条：丁丙 – 1900《武林坊巷志》Volume 1，命中内容“为此、我们特将浙江省图书馆所珍藏的原稿,进行加工整理,分为八册出版,为社会主义精神文明建设, ^提供有价值的历史资料。”
√ 第5条：山西省社会科学硏究所 – 1900《山西革命回忆录》Volume 3
除了第1条1906有点奇怪，其他估计是年份不明的都被当作1900年的了。

其二、字符识别问题

Librarything的Tim使用Books Ngram Viewer发现，fuck这个流行骂人话不但历史悠久，而且在1700年前后远比现在流行。
Books Ngram Viewer-fuck
查图书原文，当年的那个词其实是suck。因为早年字母有所谓“长s”，长像就是没有短横的f。而Google图书显然没能识别。
suck not fuck

Via Thing-ology Blog: Romeo and Juliet, with—Get your mind out the gutter! (DECEMBER 17TH, 2010)

———-无语的分割线———-
最近自己一直在为统计伤神。
给不甚准确的原始数据做统计，再……分析，其结果可信度有多少？

《Google实验室新品Books Ngram Viewer：数据的可靠性》上有5条评论

Pingback： Google Books Ngram Viewer: 从520万册书中统计词频趋势 | 左手键盘，右手书
sogg说道：

2014年6月17日 13:17

送链接一枚：
Thing-ology Blog：http://blog.librarything.com/thingology/2010/12/romeo-and-juliet-with-get-your-mind-out-the-gutter/
1. catwizard说道：
  
  2014年6月17日 21:30
  
  原来的链接竟然是错的，想不通了。
2. catwizard说道：
  
  2014年6月17日 21:37
  
  thx。看到图片没有正常显示，还没想到访问网址也变掉了。现在索性一并改了。
Pingback：年终学术：上图学会2014年12月双月讲座 » 编目精灵III

评论已关闭。