OCLC的网站存档描述元数据项目成果之《网站存档的描述性元数据:收割工具评述》

项目简介见:OCLC的网站存档描述元数据项目成果之《网站存档的描述性元数据:建议》

《存档的描述性元数据:收割工具评述》
Samouelian, Mary, and Jackie Dooley. 2018. Descriptive Metadata for Web Archiving: Review of
Harvesting Tools. Dublin, OH: OCLC Research. doi:10.25333/C37H0T.

选择11个网站收割工具(仍在维护更新、含描述元数据抓取功能):
• Archive-It
• Heritrix
• HTTrack
• Memento
• Netarchive Suite
• SiteStory
• Social Feed Manager
• Wayback Machine
• Web Archive Discovery
• Web Curator Tool
• Webrecorder

从7个方面评估各自在自动生成描述元数据方面的能力
1.该工具的基本用途及其核心功能是什么? (例如,捕获、显示和/或管理层)
2.它可以接收和生成哪些对象/文件? (即工具创建或更改的原子单位,例如Mementos,WARC(Web ARChives)或PDF)
3.它记录了哪些元数据配置文件?
4.自动生成哪些描述性元素?
5.用户可以创建或编辑哪些描述性元素?
6.可以导出哪些描述性数据元素以在工具外部使用?
7.它与其他工具有什么关系? (例如,Heritrix收集嵌入在WARC文件中的元数据,其中一些文件由Archive-It使用。)

更多网站存档工具和软件,见国际互联网保存联盟(International Internet Preservation Consortium)网站:
IIPC: WEB ARCHIVING > Tools & software

对于网站存档的状况,哈佛大学2016年发布了一份《网站存档环境扫描》:
Truman, Gail. 2016. Web Archiving Environmental Scan. Harvard Library Report.

Voyant:在线文本分析及可视化工具(另有服务器版)

王涛老师的直播“手把手带你再现一项完整的数字人文研究”大纲中有用 Voyant 进行文本挖掘内容(参见:可视化开源软件Gephi(附网上直播回放“手把手带你再现一项完整的数字人文研究”)),但直播时由于时间关系没有涉及。接着Gephi略作探索:

网站:Voyant(法语,先见者)http://voyant-tools.org
Voyant Tools 是一个基于网络的数字文本阅读和分析环境。
简言之,可输入网址、粘贴文字或上传文件作为语料库,自动作文本分析、生成可视化图形,包括词云、词频……,可导出分析处理后的数据,还可分享分析数据(提供可嵌入网页的分享链接)。
以下是奥斯汀小说语料库分享实例:

(由于系统原因嵌入网页无法呈现,只能链接前往)

Voyant 目前可选十种文字界面,不含中文,但支持对汉字进行处理。
要分析的语料,有3种提交方式:1、上传文件;2、提供网页的网址;3、直接粘贴文本。
也可以打开系统中已有的2个语料库(莎士比亚戏剧37部、奥斯汀小说8部),探索Voyant的功能。

Voyant 目前有20个工具,带图示的工具介绍见 Tools index
完整的使用介绍见:Voyant Tools Documentation

进入语料库后默认界面会有:高频词云(可作为标签云工具)、高频词趋势曲线、语料库概要等5个部分(见上图)。每个部分都可切换各种工具进行探索。比如可根据语种选择停用词,也可自定义停用词表。比较不解的是中文的标点符号也被当成字符且无法停用。

Voyant还提供服务器版(VOYANT SERVER),可下载到本机安装,数据不必提交给 Voyant Tool 网站,还可离线操作,可处理更大数据。

可视化开源软件Gephi(附网上直播回放“手把手带你再现一项完整的数字人文研究”)

前几天听南京大学历史学院数字人文研究中心主任王涛老师的网上直播“手把手带你再现一项完整的数字人文研究”(目前仍提供回放),其中用Gephi图示社会网络关系,很感兴趣。于是在网上查找相关资料,找到了很好的中文在线教程。

Gephi官网:https://gephi.org/
软件下载(最新版0.9.2),教程,插件……
Gephi

Gephi 中文教程:https://www.udemy.com/gephi/
MOOC平台Udemy上的Gephi 中文教程,由Ooof liu(刘勇)在2012年录制,可免费学习(需要注册Udemy)。看介绍Ooof liu也是当年Web2.0的积极参与者。
本教程为入门课,讲解简明清晰。主要内容有17课、视频合计2.5小时。花了4个晚上,手机看视频+电脑用Gephi,基本掌握Gephi操作。
本课程第20-23课提供练习或课程中用到的例示数据(如第7课《西游记》爱慕关系图等),可先期下载,学习时根据课程内容导入相应数据(注意:视频讲解时没有提示,应该是后来根据课程反馈补充在后面课程中的)。
课程基于Gehi 0.8.1版录屏制作,在界面和功能上与目前的0.9.2版略有差别。如输出图形前预览Preview,没有节标签栏选择,在课程问答部分看到网友说只能在Data Laboratory中把需要显示的标签列内容复制到相应的label列解决。
Gephi可以对数据做统计计算,根据计算结果对关系进行排序、分组,生成不同大小、颜色的节点,使生成的图更具有说明性。但本课程基本没有涉及统计功能的含义及应用。
2017年作者在本课程基础上出版了图书《网络数据可视化与分析利器:Gephi 中文教程》。图书基于 Gephi 0.9.1版,增加了一些进阶内容,包括前述统计方法的基本运行原理等。(该书本馆馆藏已出借,预约中尚未看到实物)

—– 广告:网上直播回放“手把手带你再现一项完整的数字人文研究”—–
5月21日晚,网上听王涛老师的直播,3小时。一边用手机看视频,一边在电脑上操作。不是完全跟得上,但可了解其所采用的方法。虽然直播已经结束,但目前提供直播回放,到6月30日为止。
直播/回放网址(2018.5.21-6.30):http://shipin.nanboone.cn/watch/1955752
调查问卷:“521直播”信息反馈 https://www.wjx.cn/jq/24041689.aspx

直播介绍见“人文社科新方法”微信公众号:直播预告|手把手带你再现一项完整的数字人文研究(2018-05-04)
课程大纲
跟着我们的步骤,你将完整的重现这样一个研究的全过程:
1. 用Foxmail下载元数据【使用自己邮箱中的邮件】
2. 用Python解析邮件、清洗数据
3. 用Excel进行数据透视
4. 用Gephi进行社会网络分析
5. 用Voyant、Python进行文本挖掘【直播未演示在线应用Voyant】

直播前提供的以上软件(看直播/回放前先在自己电脑上安装、配置好):
Mac版本:https://pan.baidu.com/s/1pbB6VO1ZJnqZTpGeGXK5vw 密码:hg9e
Win版本:https://pan.baidu.com/s/12Nl6NrobxNawazfwHi32Mw 密码:z1p3
直播中用到的 python 源代码下载:https://pan.baidu.com/s/1EIC2vywvDmSJo-DHhlg4lg 密码:hcyw
另:需要在命令行状态下安装python的2个库文件:pip install jieba(分词) 和 pip install pyldavis(可视化包)