Voyant:在线文本分析及可视化工具(另有服务器版)

王涛老师的直播“手把手带你再现一项完整的数字人文研究”大纲中有用 Voyant 进行文本挖掘内容(参见:可视化开源软件Gephi(附网上直播回放“手把手带你再现一项完整的数字人文研究”)),但直播时由于时间关系没有涉及。接着Gephi略作探索:

网站:Voyant(法语,先见者)http://voyant-tools.org
Voyant Tools 是一个基于网络的数字文本阅读和分析环境。
简言之,可输入网址、粘贴文字或上传文件作为语料库,自动作文本分析、生成可视化图形,包括词云、词频……,可导出分析处理后的数据,还可分享分析数据(提供可嵌入网页的分享链接)。
以下是奥斯汀小说语料库分享实例:

(由于系统原因嵌入网页无法呈现,只能链接前往)

Voyant 目前可选十种文字界面,不含中文,但支持对汉字进行处理。
要分析的语料,有3种提交方式:1、上传文件;2、提供网页的网址;3、直接粘贴文本。
也可以打开系统中已有的2个语料库(莎士比亚戏剧37部、奥斯汀小说8部),探索Voyant的功能。

Voyant 目前有20个工具,带图示的工具介绍见 Tools index
完整的使用介绍见:Voyant Tools Documentation

进入语料库后默认界面会有:高频词云(可作为标签云工具)、高频词趋势曲线、语料库概要等5个部分(见上图)。每个部分都可切换各种工具进行探索。比如可根据语种选择停用词,也可自定义停用词表。比较不解的是中文的标点符号也被当成字符且无法停用。

Voyant还提供服务器版(VOYANT SERVER),可下载到本机安装,数据不必提交给 Voyant Tool 网站,还可离线操作,可处理更大数据。

可视化开源软件Gephi(附网上直播回放“手把手带你再现一项完整的数字人文研究”)

前几天听南京大学历史学院数字人文研究中心主任王涛老师的网上直播“手把手带你再现一项完整的数字人文研究”(目前仍提供回放),其中用Gephi图示社会网络关系,很感兴趣。于是在网上查找相关资料,找到了很好的中文在线教程。

Gephi官网:https://gephi.org/
软件下载(最新版0.9.2),教程,插件……
Gephi

Gephi 中文教程:https://www.udemy.com/gephi/
MOOC平台Udemy上的Gephi 中文教程,由Ooof liu(刘勇)在2012年录制,可免费学习(需要注册Udemy)。看介绍Ooof liu也是当年Web2.0的积极参与者。
本教程为入门课,讲解简明清晰。主要内容有17课、视频合计2.5小时。花了4个晚上,手机看视频+电脑用Gephi,基本掌握Gephi操作。
本课程第20-23课提供练习或课程中用到的例示数据(如第7课《西游记》爱慕关系图等),可先期下载,学习时根据课程内容导入相应数据(注意:视频讲解时没有提示,应该是后来根据课程反馈补充在后面课程中的)。
课程基于Gehi 0.8.1版录屏制作,在界面和功能上与目前的0.9.2版略有差别。如输出图形前预览Preview,没有节标签栏选择,在课程问答部分看到网友说只能在Data Laboratory中把需要显示的标签列内容复制到相应的label列解决。
Gephi可以对数据做统计计算,根据计算结果对关系进行排序、分组,生成不同大小、颜色的节点,使生成的图更具有说明性。但本课程基本没有涉及统计功能的含义及应用。
2017年作者在本课程基础上出版了图书《网络数据可视化与分析利器:Gephi 中文教程》。图书基于 Gephi 0.9.1版,增加了一些进阶内容,包括前述统计方法的基本运行原理等。(该书本馆馆藏已出借,预约中尚未看到实物)

—– 广告:网上直播回放“手把手带你再现一项完整的数字人文研究”—–
5月21日晚,网上听王涛老师的直播,3小时。一边用手机看视频,一边在电脑上操作。不是完全跟得上,但可了解其所采用的方法。虽然直播已经结束,但目前提供直播回放,到6月30日为止。
直播/回放网址(2018.5.21-6.30):http://shipin.nanboone.cn/watch/1955752
调查问卷:“521直播”信息反馈 https://www.wjx.cn/jq/24041689.aspx

直播介绍见“人文社科新方法”微信公众号:直播预告|手把手带你再现一项完整的数字人文研究(2018-05-04)
课程大纲
跟着我们的步骤,你将完整的重现这样一个研究的全过程:
1. 用Foxmail下载元数据【使用自己邮箱中的邮件】
2. 用Python解析邮件、清洗数据
3. 用Excel进行数据透视
4. 用Gephi进行社会网络分析
5. 用Voyant、Python进行文本挖掘【直播未演示在线应用Voyant】

直播前提供的以上软件(看直播/回放前先在自己电脑上安装、配置好):
Mac版本:https://pan.baidu.com/s/1pbB6VO1ZJnqZTpGeGXK5vw 密码:hg9e
Win版本:https://pan.baidu.com/s/12Nl6NrobxNawazfwHi32Mw 密码:z1p3
直播中用到的 python 源代码下载:https://pan.baidu.com/s/1EIC2vywvDmSJo-DHhlg4lg 密码:hcyw
另:需要在命令行状态下安装python的2个库文件:pip install jieba(分词) 和 pip install pyldavis(可视化包)

2018年国际关联数据实施者调查

OCLC研究部在2014和2015年进行了2次关联数据实施者调查,调查结果都曾公布,原始数据(除联系信息)也在网站提供(Results of Linked Data Surveys for Implementers, 2014 & 2015)。
参见:
OCLC 关联数据项目调查结果:机构、成果、消费、发布、技术、建议(2014-9-25)
关联数据应用现状:2015国际关联数据实施者调查的分析(2016-9-4)

目前,OCLC研究部正进行2018年国际关联数据实施者调查(International Linked Data Survey for Implementers 2018),调查对象是已经实施或正在实施关联数据项目或服务的工作人员,可以是将数据发布为关联数据、也可以是将关联数据资源摄入自己的数据或应用程序中。项目可以是未参加过先前调查的、也可以报告先前实施项目的变化。截止日期为2018年5月25日
调查内容略多,虽然不是所有问题都必填,还是需要对项目各方面有比较全面深入的了解。好在填写时不需要一次性完成,也不限当天,只要是同一台电脑、同一个浏览器,在点击最后的“Done”提交前,都可以用“Prev”“Next”修改填写内容。
希望这次能够看到国内的关联数据项目参与调查