以前介绍过施乐的“语言猜测家”,可以根据一段文字判定所属语言。前段日子发现那个链接失效了,只好重新找。今天找到“文本分类语言猜测家演示版”(TextCat Language Guesser Demo),很不错的网站,支持多达76种语言,速度也很快。
看介绍,TextCat是荷兰University of Groningen大学Gertjan van Noord在1994-1997年间,根据W.B. Cavnar和J.M. Trenkle在1994年的“文献分析和情报检索第三届年会”论文中提出的文本分类算法实施的。用Perl脚本实现,提供完整的源文件,供非商业免费使用。
网站还列出了其他一些语言识别工具(LANGUAGE IDENTIFICATION TOOLS),不过大概由于兴趣转移,如作者所说网站这部分已不再维护,所以大多链接都已失效,只能用来了解十多年前的语言识别工具状况,或者作为搜索这些工具新链接的起点。