HathiTrust发布1374万册图书的抽取特征数据集

2016年12月5日,HathiTrust(HT)宣布发布1374万册图书的“HathiTrust研究中心抽取特征数据集”简称EF数据集(Big (and Open) Data for Scholarship of All Sizes: A New Release of the HathiTrust Research Center Extracted Features Dataset) 。此开放数据集为1.0版,包括公共域图书和有版权的图书,较2015年初次发布的、包含480万册公共域图书的0.2版,规模扩大很多。

HathiTrust Research Center (HTRC) Extracted Features (EF) Dataset, Version 1.0
本语料库数据抽取自HTDL的1370万册书,超过50亿页,标识(词)超过2T。包括从16世纪到20世纪后期的出版物,供研究历史和文化趋势、论题兴衰、用词和写作结构的进化。
数据集提供逐词的量化信息,有关词和行数、词性及每卷每页中的其他细节。除了完整集,研究者也能用EF数据集仔细分析给定卷或某些卷子集的内容。
量化特征包括卷层次特征和页层次特征(含页头、页身、页脚信息),并提供文中每个词的标记信息。详见:Extracted Features Dataset

数据开放,是希望得到利用。据称2015年EF数据集的初步发布,已经让经济学、历史、语言法、文学研究和社会学等方面的学者能够进行与众不同的研究。若干例子见:
Extracted Features in the Wild (last modified on Jan 14, 2016)
Word Similarity Tool(词相似度工具)
HT+Bookworm(术语交互分布可视化)
Within-Book Topic Modeling(书内论题建模)
A Topic Model of Fiction(小说论题模型)

关于HathiTrust(HT)、HathiTrust数字图书馆(HTDL)和HathiTrust研究中心(HTRC)
HathiTrust(HT)成立于2008年,由密歇根大学主持,保存并提供数百万数字化书刊的访问(HT数字图书馆),数据来自120多个学术和研究机构。
HathiTrust研究中心(HTRC),由印第安那大学、伊利诺伊大学联合HTDL发起的协作研究中心,通过开发先进软件工具和信息基础设施,实现对不断增长的人类知识的数字记录的高级计算访问,帮助满足研究者面对的处理大量数字文本的技术挑战。

研究数据服务OA期刊:eScience图书馆学杂志

Journal of eScience Librarianship
开放获取、同行评审期刊,探索图书馆员在支持eScience中的多种作用,目的在于推进图书馆学在数据驱动研究相关服务中的理论与实践,欢迎与教育、宣传、合作、政策、工具和最佳实践相关的理论或实际应用的文章。

JeSLIB创刊于2012年,每年1-2期(目前已出版9期)。该刊得到美国国家医学图书馆NLM、国立卫生研究院NIH等资助,由马萨诸塞大学医学院Lamar Soutter图书馆出版,发布在其机构库eScholarship@UMMS
论题包括但不限于:
* Research data management 研究数据管理
* Librarians embedded on research teams 图书馆员嵌入研究团队
* Data services, including policy development 数据服务,包括政策开发
* Data curation 数据保管
* Data sharing and re-use 数据分享与重用
* Data management plans 数据管理计划
* Data preservation 数据长期保存
* Metadata and discoverability 元数据与可发现性
* Institutional and discipline-specific repositories 机构库与特定学科存储库
* Impact of governmental or institutional policies 政府或机构政策的影响
* Open data, open science and open access 开放数据、开放科学和开放获取
* Data literacy and data education 数据素养和数据教育
* Data citation 数据引用
* Tracking impact of research data, metrics 研究数据影响追踪,指标
* Big data 大数据
* Visualization 可视化

文章页面除了下载量,部分有替代计量测度,如v. 5 (2016), issue 1论文:
From Plan to Action: Successful Data Management Plan Implementation in a Multidisciplinary Project
Altmetric关注度=28(实时获取,显示有延迟)
链接到Altmetric.com页面,可以看到被博客提及3次、转推11次、在Mendeley阅读7次(及细节),并有推主等的学科、研究领域统计(信息来自其帐户的自我介绍)。

欧洲大学研究图书馆的研究数据服务:现状报告

2个月前的消息,补记之。

LIBER’s blog: Research Data Services in Europe’s Academic Research Libraries (2016-10-13)
这是对22个欧洲国家、119个高校图书馆的研究数据服务(RDS)现状的调查。调查由LIBER(欧洲研究图书馆协会)学术交流与研究基础设施委员会、DataONE及一个国际知名研究者小组实施。
结论是:几乎所有欧洲高校研究图书馆正通过机构内外协作,帮助确保今天的科学数据得到适当保管,使其可供后代获取、共享和重用。调查表明:
* 图书馆当前更多提供的是咨询类RDS服务(例如如何寻找“数据管理计划”、元数据标准或数据引用实践方面的信息),而不是技术服务(例如自己的存储解决方案);【提供数据存储的也达到了不低的39%】
* 不到半数图书馆称其机构当前有RDS相关政策
* 三分之二图书馆馆长强烈表达图书馆需要提供RDS服务以保持相关性【不被淘汰?】。

全文下载:Research Data Services in European Academic Research Libraries
主要数据信息图:“研究数据日益被当作学术记录的基本部分”
RDS in European Academic Research Libraries

参见:
台湾国际资讯整合联盟:“欧洲学术图书馆之研究数据服务”现况报告公布(2016-10-14)
hyu623的日志(书社会):专业调查|欧洲大学研究型图书馆的研究数据服务(2016-10-23 )