编目精灵III

2016年12月5日，HathiTrust（HT）宣布发布1374万册图书的“HathiTrust研究中心抽取特征数据集”简称EF数据集（Big (and Open) Data for Scholarship of All Sizes: A New Release of the HathiTrust Research Center Extracted Features Dataset）。此开放数据集为1.0版，包括公共域图书和有版权的图书，较2015年初次发布的、包含480万册公共域图书的0.2版，规模扩大很多。

HathiTrust Research Center (HTRC) Extracted Features (EF) Dataset, Version 1.0
本语料库数据抽取自HTDL的1370万册书，超过50亿页，标识（词）超过2T。包括从16世纪到20世纪后期的出版物，供研究历史和文化趋势、论题兴衰、用词和写作结构的进化。
数据集提供逐词的量化信息，有关词和行数、词性及每卷每页中的其他细节。除了完整集，研究者也能用EF数据集仔细分析给定卷或某些卷子集的内容。
量化特征包括卷层次特征和页层次特征（含页头、页身、页脚信息），并提供文中每个词的标记信息。详见：Extracted Features Dataset

数据开放，是希望得到利用。据称2015年EF数据集的初步发布，已经让经济学、历史、语言法、文学研究和社会学等方面的学者能够进行与众不同的研究。若干例子见：
Extracted Features in the Wild (last modified on Jan 14, 2016)
Word Similarity Tool（词相似度工具）
HT+Bookworm（术语交互分布可视化）
Within-Book Topic Modeling（书内论题建模）
A Topic Model of Fiction（小说论题模型）

关于HathiTrust（HT）、HathiTrust数字图书馆（HTDL）和HathiTrust研究中心（HTRC）
HathiTrust（HT）成立于2008年，由密歇根大学主持，保存并提供数百万数字化书刊的访问（HT数字图书馆），数据来自120多个学术和研究机构。
HathiTrust研究中心（HTRC），由印第安那大学、伊利诺伊大学联合HTDL发起的协作研究中心，通过开发先进软件工具和信息基础设施，实现对不断增长的人类知识的数字记录的高级计算访问，帮助满足研究者面对的处理大量数字文本的技术挑战。

归档

HathiTrust发布1374万册图书的抽取特征数据集