HathiTrust发布1374万册图书的抽取特征数据集

2016年12月5日,HathiTrust(HT)宣布发布1374万册图书的“HathiTrust研究中心抽取特征数据集”简称EF数据集(Big (and Open) Data for Scholarship of All Sizes: A New Release of the HathiTrust Research Center Extracted Features Dataset) 。此开放数据集为1.0版,包括公共域图书和有版权的图书,较2015年初次发布的、包含480万册公共域图书的0.2版,规模扩大很多。

HathiTrust Research Center (HTRC) Extracted Features (EF) Dataset, Version 1.0
本语料库数据抽取自HTDL的1370万册书,超过50亿页,标识(词)超过2T。包括从16世纪到20世纪后期的出版物,供研究历史和文化趋势、论题兴衰、用词和写作结构的进化。
数据集提供逐词的量化信息,有关词和行数、词性及每卷每页中的其他细节。除了完整集,研究者也能用EF数据集仔细分析给定卷或某些卷子集的内容。
量化特征包括卷层次特征和页层次特征(含页头、页身、页脚信息),并提供文中每个词的标记信息。详见:Extracted Features Dataset

数据开放,是希望得到利用。据称2015年EF数据集的初步发布,已经让经济学、历史、语言法、文学研究和社会学等方面的学者能够进行与众不同的研究。若干例子见:
Extracted Features in the Wild (last modified on Jan 14, 2016)
Word Similarity Tool(词相似度工具)
HT+Bookworm(术语交互分布可视化)
Within-Book Topic Modeling(书内论题建模)
A Topic Model of Fiction(小说论题模型)

关于HathiTrust(HT)、HathiTrust数字图书馆(HTDL)和HathiTrust研究中心(HTRC)
HathiTrust(HT)成立于2008年,由密歇根大学主持,保存并提供数百万数字化书刊的访问(HT数字图书馆),数据来自120多个学术和研究机构。
HathiTrust研究中心(HTRC),由印第安那大学、伊利诺伊大学联合HTDL发起的协作研究中心,通过开发先进软件工具和信息基础设施,实现对不断增长的人类知识的数字记录的高级计算访问,帮助满足研究者面对的处理大量数字文本的技术挑战。