王涛老师的直播“手把手带你再现一项完整的数字人文研究”大纲中有用 Voyant 进行文本挖掘内容(参见:可视化开源软件Gephi(附网上直播回放“手把手带你再现一项完整的数字人文研究”)),但直播时由于时间关系没有涉及。接着Gephi略作探索:
网站:Voyant(法语,先见者)http://voyant-tools.org
Voyant Tools 是一个基于网络的数字文本阅读和分析环境。
简言之,可输入网址、粘贴文字或上传文件作为语料库,自动作文本分析、生成可视化图形,包括词云、词频……,可导出分析处理后的数据,还可分享分析数据(提供可嵌入网页的分享链接)。
以下是奥斯汀小说语料库分享实例:
(由于系统原因嵌入网页无法呈现,只能链接前往)
Voyant 目前可选十种文字界面,不含中文,但支持对汉字进行处理。
要分析的语料,有3种提交方式:1、上传文件;2、提供网页的网址;3、直接粘贴文本。
也可以打开系统中已有的2个语料库(莎士比亚戏剧37部、奥斯汀小说8部),探索Voyant的功能。
Voyant 目前有20个工具,带图示的工具介绍见 Tools index
完整的使用介绍见:Voyant Tools Documentation
进入语料库后默认界面会有:高频词云(可作为标签云工具)、高频词趋势曲线、语料库概要等5个部分(见上图)。每个部分都可切换各种工具进行探索。比如可根据语种选择停用词,也可自定义停用词表。比较不解的是中文的标点符号也被当成字符且无法停用。
Voyant还提供服务器版(VOYANT SERVER),可下载到本机安装,数据不必提交给 Voyant Tool 网站,还可离线操作,可处理更大数据。