Voyant:在线文本分析及可视化工具(另有服务器版)

王涛老师的直播“手把手带你再现一项完整的数字人文研究”大纲中有用 Voyant 进行文本挖掘内容(参见:可视化开源软件Gephi(附网上直播回放“手把手带你再现一项完整的数字人文研究”)),但直播时由于时间关系没有涉及。接着Gephi略作探索:

网站:Voyant(法语,先见者)http://voyant-tools.org
Voyant Tools 是一个基于网络的数字文本阅读和分析环境。
简言之,可输入网址、粘贴文字或上传文件作为语料库,自动作文本分析、生成可视化图形,包括词云、词频……,可导出分析处理后的数据,还可分享分析数据(提供可嵌入网页的分享链接)。
以下是奥斯汀小说语料库分享实例:

(由于系统原因嵌入网页无法呈现,只能链接前往)

Voyant 目前可选十种文字界面,不含中文,但支持对汉字进行处理。
要分析的语料,有3种提交方式:1、上传文件;2、提供网页的网址;3、直接粘贴文本。
也可以打开系统中已有的2个语料库(莎士比亚戏剧37部、奥斯汀小说8部),探索Voyant的功能。

Voyant 目前有20个工具,带图示的工具介绍见 Tools index
完整的使用介绍见:Voyant Tools Documentation

进入语料库后默认界面会有:高频词云(可作为标签云工具)、高频词趋势曲线、语料库概要等5个部分(见上图)。每个部分都可切换各种工具进行探索。比如可根据语种选择停用词,也可自定义停用词表。比较不解的是中文的标点符号也被当成字符且无法停用。

Voyant还提供服务器版(VOYANT SERVER),可下载到本机安装,数据不必提交给 Voyant Tool 网站,还可离线操作,可处理更大数据。

可视化开源软件Gephi(附网上直播回放“手把手带你再现一项完整的数字人文研究”)

前几天听南京大学历史学院数字人文研究中心主任王涛老师的网上直播“手把手带你再现一项完整的数字人文研究”(目前仍提供回放),其中用Gephi图示社会网络关系,很感兴趣。于是在网上查找相关资料,找到了很好的中文在线教程。

Gephi官网:https://gephi.org/
软件下载(最新版0.9.2),教程,插件……
Gephi

Gephi 中文教程:https://www.udemy.com/gephi/
MOOC平台Udemy上的Gephi 中文教程,由Ooof liu(刘勇)在2012年录制,可免费学习(需要注册Udemy)。看介绍Ooof liu也是当年Web2.0的积极参与者。
本教程为入门课,讲解简明清晰。主要内容有17课、视频合计2.5小时。花了4个晚上,手机看视频+电脑用Gephi,基本掌握Gephi操作。
本课程第20-23课提供练习或课程中用到的例示数据(如第7课《西游记》爱慕关系图等),可先期下载,学习时根据课程内容导入相应数据(注意:视频讲解时没有提示,应该是后来根据课程反馈补充在后面课程中的)。
课程基于Gehi 0.8.1版录屏制作,在界面和功能上与目前的0.9.2版略有差别。如输出图形前预览Preview,没有节标签栏选择,在课程问答部分看到网友说只能在Data Laboratory中把需要显示的标签列内容复制到相应的label列解决。
Gephi可以对数据做统计计算,根据计算结果对关系进行排序、分组,生成不同大小、颜色的节点,使生成的图更具有说明性。但本课程基本没有涉及统计功能的含义及应用。
2017年作者在本课程基础上出版了图书《网络数据可视化与分析利器:Gephi 中文教程》。图书基于 Gephi 0.9.1版,增加了一些进阶内容,包括前述统计方法的基本运行原理等。(该书本馆馆藏已出借,预约中尚未看到实物)

—– 广告:网上直播回放“手把手带你再现一项完整的数字人文研究”—–
5月21日晚,网上听王涛老师的直播,3小时。一边用手机看视频,一边在电脑上操作。不是完全跟得上,但可了解其所采用的方法。虽然直播已经结束,但目前提供直播回放,到6月30日为止。
直播/回放网址(2018.5.21-6.30):http://shipin.nanboone.cn/watch/1955752
调查问卷:“521直播”信息反馈 https://www.wjx.cn/jq/24041689.aspx

直播介绍见“人文社科新方法”微信公众号:直播预告|手把手带你再现一项完整的数字人文研究(2018-05-04)
课程大纲
跟着我们的步骤,你将完整的重现这样一个研究的全过程:
1. 用Foxmail下载元数据【使用自己邮箱中的邮件】
2. 用Python解析邮件、清洗数据
3. 用Excel进行数据透视
4. 用Gephi进行社会网络分析
5. 用Voyant、Python进行文本挖掘【直播未演示在线应用Voyant】

直播前提供的以上软件(看直播/回放前先在自己电脑上安装、配置好):
Mac版本:https://pan.baidu.com/s/1pbB6VO1ZJnqZTpGeGXK5vw 密码:hg9e
Win版本:https://pan.baidu.com/s/12Nl6NrobxNawazfwHi32Mw 密码:z1p3
直播中用到的 python 源代码下载:https://pan.baidu.com/s/1EIC2vywvDmSJo-DHhlg4lg 密码:hcyw
另:需要在命令行状态下安装python的2个库文件:pip install jieba(分词) 和 pip install pyldavis(可视化包)

学术报告“另一个视界”与上图数字人文项目

出于对可视化的兴趣,周五(2017.8.11)去上海图书馆听学术报告。感谢上图开放学术资源让大家共享。

另一个视界:清华大学美术学院向帆副教授和朱舜山工程师学术讲座

会议通知中推荐的报告人微信公众号文章:
《数据追问-全国美展油画作品视觉化解读》
《我是不是有点皇亲国戚?》

报告安排在下午。可惜我在开讲没多久,就因收到私事信息急需处理,差不多一半时间在边听边开小差上网中。所幸前一晚先做了点功课,看过两位报告人的网站Z Lab,特别是其中的 Projects 板块,还能勉强跟上所讲内容。Z Lab网站共有11个项目(没有上述利用CBDB数据的家谱图),看过感觉一是可视化效果很酷炫(如微博地点钟的24小时);二是可视化设计也被作为一种实用的研究辅助工具(如热带森林数据可视化)。
本次报告涉及了Z Lab网站半数以上项目,听现场讲述比看介绍生动很多,尤其对“为什么会这么做”的解释,光看介绍是获取不到的。向帆老师把她的项目定位为现代艺术作品,而不是数字人文(或其他),至于被其他人用作分析工具,也被她视为作品的一部分,全国美展获奖作品分析就是一个典型例子。我的感觉,比如在CBDB家族谱系图、热带森林数据等,可视化应该更多是作为工具。当然由于向老师的美术背景,或许在设计时是作为艺术创作看待的。
问答阶段,向老师提到她也做了不少文本挖掘项目,比如张爱玲、海明威……,数字人文无疑。
听完比较“失望”的是,那些酷炫的效果,大多是朱舜山老师用代码写出来的,没有利用太多工具。视觉设计不易,实现也不具有可复制性。因此,只能是艺术品?两位老师珠联璧合,看得出在性格上也属互补型的。

——— 上海图书馆数字人文项目介绍 ———
当天上午是内部的上海图书馆数字人文项目介绍,希望请两位老师帮助改善可视化界面设计。
刘炜副馆长开场,夏翠娟做总体介绍,上图目前共有7个相关项目:1中国家谱总目(华人家谱总目——上海图书馆家谱知识服务平台),2盛宣怀档案,3名人手稿(上海图书馆名人手稿),4中文古籍联合目录及循证平台,5规范库(含人名、中国历史纪年、地理名词表、收藏机构名录等),6书目库,7上海历史文化时空再造——武康路。其中1、3、4、7后续由各自项目主管(抱歉没听清姓名)做详细演示,尤其是可视化部分。
向老师在看到名人手稿部分时指出:一般的可视化(饼图柱图之类),掩盖了最最让人感动的部分。——话说得没错,只不过图书馆是整理资料的,就像朱老师在整理全国美展获奖作品基础资料时所说的somebody:Somebody has to do the dirty work. 面对海量文献中充满个性化的内容,要当作艺术作品来创作,真的会使项目没有截止期的。
向老师问得最多的问题是:应用场景,用户需求。——或者说用例、故事,确实是需要首先考虑,也是当前图书馆做项目需要强调的,比如最近LD4社群“调和与实体解析工作组”正在征求用例(关联数据的“调和”与“解析”) 。
与邻座tsingove交换意见,作为基础设施的话,有时可能并不针对特定场景(当然那也是场景),提供数据就好,至于怎么用,留给第三方来开发。上图接连两年举办的关联数据竞赛,就是这种设想的体现。夏MM也解释,如古籍系统的某些预设应用,也是咨询过馆内领域专家的,是作为示范,让研究者了解数据可能怎么用,进而提出更多应用场景。
上午会议结束时,Keven总结数字人文项目中三方的角色:图书馆员作为领域专家与计算机开发者之间的桥梁。朱老师补充:要加上第四方设计师,了解用户体验。