1923年前外文期刊:免费访问、批量下载、文本挖掘

关于JSTOR早期期刊内容(Early Journal Content, EJC

——包括美国1923年前、其他国家1870年前出版的期刊,于2011年9月6日开始提供世界范围的免费访问,并随着数字化的完成不断增加。
学科包括艺术人文、经济政治、数学和其他科学。
这批数据占JSTOR内容的6%。

——最近,JSTOR把这批350种期刊共45万篇文章提供给了互联网档案(IA),现在也可以通过IA访问

——这批数据共2T,还可以通过JSTOR或IA批量下载、收割
JSTOR:EJC介绍
IA:Downloading in bulk using wget

——JSTOR同时提供全文OCR及文章元数据的批量下载,供文本挖掘和分析研究使用。
目前压缩数据1.7GB,解压后7.5GB。
EJC数据集:Early Journal Content Data Bundle

via Internet Archive Blogs: 450,000 Early Journal Articles Now Available (2013-4-11)

P.S. 联想或感想二则:
1、一月去世的Aaron Swartz,为IA工作,另因批量下载JSTOR数据而面临牢狱之灾。这是它们之间的一种和解么?
2、老外做研究条件就是好,大量免费数据可用,阅读、使用之外,还可以挖掘、研究。

发表评论

电子邮件地址不会被公开。 必填项已用*标注


*