HathiTrust发布1374万册图书的抽取特征数据集

2016年12月5日,HathiTrust(HT)宣布发布1374万册图书的“HathiTrust研究中心抽取特征数据集”简称EF数据集(Big (and Open) Data for Scholarship of All Sizes: A New Release of the HathiTrust Research Center Extracted Features Dataset) 。此开放数据集为1.0版,包括公共域图书和有版权的图书,较2015年初次发布的、包含480万册公共域图书的0.2版,规模扩大很多。

HathiTrust Research Center (HTRC) Extracted Features (EF) Dataset, Version 1.0
本语料库数据抽取自HTDL的1370万册书,超过50亿页,标识(词)超过2T。包括从16世纪到20世纪后期的出版物,供研究历史和文化趋势、论题兴衰、用词和写作结构的进化。
数据集提供逐词的量化信息,有关词和行数、词性及每卷每页中的其他细节。除了完整集,研究者也能用EF数据集仔细分析给定卷或某些卷子集的内容。
量化特征包括卷层次特征和页层次特征(含页头、页身、页脚信息),并提供文中每个词的标记信息。详见:Extracted Features Dataset

数据开放,是希望得到利用。据称2015年EF数据集的初步发布,已经让经济学、历史、语言法、文学研究和社会学等方面的学者能够进行与众不同的研究。若干例子见:
Extracted Features in the Wild (last modified on Jan 14, 2016)
Word Similarity Tool(词相似度工具)
HT+Bookworm(术语交互分布可视化)
Within-Book Topic Modeling(书内论题建模)
A Topic Model of Fiction(小说论题模型)

关于HathiTrust(HT)、HathiTrust数字图书馆(HTDL)和HathiTrust研究中心(HTRC)
HathiTrust(HT)成立于2008年,由密歇根大学主持,保存并提供数百万数字化书刊的访问(HT数字图书馆),数据来自120多个学术和研究机构。
HathiTrust研究中心(HTRC),由印第安那大学、伊利诺伊大学联合HTDL发起的协作研究中心,通过开发先进软件工具和信息基础设施,实现对不断增长的人类知识的数字记录的高级计算访问,帮助满足研究者面对的处理大量数字文本的技术挑战。

HathiTrust Digital Library移动版

看到Keven分享的HathiTrust博文“Is that the library in your pocket?” (December 3, 2011),拿手机试用了一把,用豌豆荚做截屏,首次使用Evernote贴图存档。
一物两用,贴个分享链接在此,省时省力。

附带说一句,截图中还撞到了Google图书中著名的手指,还是彩色的。不管怎么样,应该点链接过去看看看。

P.S. 不过似乎Evernote里贴图保存不是很保险,昨天发现有丢失现象,刚才也丢了一幅(不过我因此多补了一幅)

Google图书的全文阅读及下载

Jonathan Rochkind写了一篇博文“Google Books, no longer offer PDF for public domain? (March 3, 2011)”,怀疑Google不再提供公共域图书的PDF下载。有人留言说该文误导,因为前晚他还下载了好多本。Jonathan于是承认他弄错了,下载链接躲在右上角落里,远不如电子书店那么醒目,而且还要输入识别字符后才能下载──为的自然是防止批量下载。
想来Jonathan在写博文前很是为Google取消公共域图书下载困惑了一阵的,因此我也去访问Google图书,看看是何种情形。
进入Google图书首页,在登录状态,上部显示My Google eBooks,因为曾经收藏过几册书。在收藏图书的封面图片下是灰色的Read Now按钮,点击就是双页的电子书阅读模式,找不到下载链接。返回点击封面图片,进入元数据页,右侧是蓝色醒目的Read Now按钮,也没有下载链接。Wonderful Stories for Children(点击看效果)
再回到Google图书首页,在My Google eBooks区域下部是Classics区域,都是公共域图书,一连点了多本,都只能阅读片断(Snippet view),自然更不会有下载链接了。想起来曾经测试过,这与IP有关,要是美国的IP,这公共域才普遍起作用
那个神秘的下载链接在哪里呢?
于是试着在Google图书的搜索框里查上述书名。在结果一览中点击该书,显示页面完全不同,那个下载链接在页面右上角出现了,蓝色醒目的Read Now按钮则显示到了左侧,伴随着Google电子书店的购买广告。点击Download链接,选择下载PDF或EPUB,在输入识别字符后可以下载。Wonderful Stories for Children(点击看效果)
仔细看这同一本书两个链接,原来一个ebooks,一个是books。把上面网址后面部分去掉,就显示出非常相似的页面布局,只是Google图书有书内检索框,还有预览Preview this book链接。点击就预览就到了有下载链接的页面。
Google eBooks & Google Books
(上部:Google电子书店;下部:Google图书)
http://books.google.com/ebooks?id=ey8EAAAAQAAJ
http://books.google.com/books?id=ey8EAAAAQAAJ
在查找过程中发现,一方面,尽管是公共域图书,非美国IP也不一定能看全文;另一方面,很多新版图书,甚至是本世纪出版的,也可以全文阅读──不过没有下载链接。(在高级检索中选Full View即可)
Jonathan文中还说到HathiTrust仅向认证为其成员机构的用户提供完整的PDF,至少对其中Google扫描图书如此。他认为这是与Google协议规定必须限制PDF发布。
前些日子访问HathiTrust时就发现对于公共域可完全浏览的图书,只有单页PDF链接。难道登录后就会有整书PDF链接?HathiTrust中的同一本书:Wonderful Stories for Children(点击看效果)