HathiTrust发布1374万册图书的抽取特征数据集

2016年12月5日,HathiTrust(HT)宣布发布1374万册图书的“HathiTrust研究中心抽取特征数据集”简称EF数据集(Big (and Open) Data for Scholarship of All Sizes: A New Release of the HathiTrust Research Center Extracted Features Dataset) 。此开放数据集为1.0版,包括公共域图书和有版权的图书,较2015年初次发布的、包含480万册公共域图书的0.2版,规模扩大很多。

HathiTrust Research Center (HTRC) Extracted Features (EF) Dataset, Version 1.0
本语料库数据抽取自HTDL的1370万册书,超过50亿页,标识(词)超过2T。包括从16世纪到20世纪后期的出版物,供研究历史和文化趋势、论题兴衰、用词和写作结构的进化。
数据集提供逐词的量化信息,有关词和行数、词性及每卷每页中的其他细节。除了完整集,研究者也能用EF数据集仔细分析给定卷或某些卷子集的内容。
量化特征包括卷层次特征和页层次特征(含页头、页身、页脚信息),并提供文中每个词的标记信息。详见:Extracted Features Dataset

数据开放,是希望得到利用。据称2015年EF数据集的初步发布,已经让经济学、历史、语言法、文学研究和社会学等方面的学者能够进行与众不同的研究。若干例子见:
Extracted Features in the Wild (last modified on Jan 14, 2016)
Word Similarity Tool(词相似度工具)
HT+Bookworm(术语交互分布可视化)
Within-Book Topic Modeling(书内论题建模)
A Topic Model of Fiction(小说论题模型)

关于HathiTrust(HT)、HathiTrust数字图书馆(HTDL)和HathiTrust研究中心(HTRC)
HathiTrust(HT)成立于2008年,由密歇根大学主持,保存并提供数百万数字化书刊的访问(HT数字图书馆),数据来自120多个学术和研究机构。
HathiTrust研究中心(HTRC),由印第安那大学、伊利诺伊大学联合HTDL发起的协作研究中心,通过开发先进软件工具和信息基础设施,实现对不断增长的人类知识的数字记录的高级计算访问,帮助满足研究者面对的处理大量数字文本的技术挑战。

BIBFRAME职能的表示方法(词表即将更新)

德国的 Adrian Pohl 在BIBFRAME邮件组询问,一个行为主体(Agent,施事者)有多个职能时,应当如何记录。比如作者兼插图者,是在一个“贡献”中列出多个职能,还是每个职能各做一个“贡献”。(How to record an Agent with more than one role? (2016-12-22))
Adrian Pohl 紧接着问了另一个关于职能的问题:在 BIBFRAME 2 中有没有与 BIBFRAME 1.0 中 bf:relator 对应的属性?目前最接近的是bf:role,但其值域是字符串,如果希望采用 MARC关系词URIs 是不能用的。(Recording roles with relator URIs and Bibframe 2.0 (2016-12-22))

对于职能的困惑,LC 的 Ray Denenberg 给出的回应是,bf2的bf:role等于bf1的bf:relator,因为现有文档过时了,LC马上会发布 BIBFRAME 词表的更新(BIBFRAME 2.1版?):
过去数月,我们在开发转换规范过程中,分析了 BIBFRAME 词表,在此过程中有些变化。我们计划尽早发布。
特别是,bf:role 现在是对象属性【值域不再是字符串】,bf:contributor 和 bf:creator 被排除【不在形式上区分贡献者与创作者,只以职能取值区分】。这是为了减少表达职能的不同方式。
所有贡献都通过 bf:contribution 属性引入(其客体是 bf:Contribution 类)。
关系词词表不会作为 BIBFRAME 本体的一部分、也不会导入 BIBFRAME本体。相反,LC将为自己实施 BIBFRAME 定义LC专用本体,会导入 BIBFRAME 本体和关系词。【LC会使用MARC关系词表,但其他采用 BIBFRAME 词表者可以使用其他关系词

对于前一个问题,Ray Denenberg 的答案是,每个职能各做一个“贡献”
如果一个“贡献”中有两个及更多职能说明,则是同一职能的两个不同表达(如两个不同URI)。
对“行为主体”也是如此,两个不同作者做两个“贡献”,只有当同一行为主体有不同表达时【比如一个VIAF,一个ISNI】,两个“行为主体”【的表达,其实是一个】才应当列在同一“贡献”中。

以下是 Ray Denenberg 所举“作者”职能的例子:
bf:contribution [
a bf:Contribution ;
bf:agent <http://id.loc.gov/rwo/agents/n85062876> ;
bf:role <http://id.loc.gov/vocabulary/relators/aut> ] ;

<http://id.loc.gov/rwo/agents/n85062876> [
a bf:Agent, bf:Person ;
rdfs:label “Gomes, Luísa Costa “ ] ;

<http://id.loc.gov/vocabulary/relators/aut> [
a bf:Role ;
rdfs:label “author” ] ;

如果其同时为“插图者”,需要同样再做一个 bf:contribution(以下例子为本人增补):

bf:contribution [
a bf:Contribution ;
bf:agent <http://id.loc.gov/rwo/agents/n85062876> ;
bf:role <http://id.loc.gov/vocabulary/relators/ill> ] ;

<http://id.loc.gov/vocabulary/relators/ill> [
a bf:Role ;
bf:Role ;
rdfs:label “Illustrator” ] ;

——— 编目员终于不用再了解格式了 ———
一开始看到关于BIBFRAME如何表达的讨论,看到BIBFRAME 1.0到2.0类和属性的交替,看到复杂的三元组表达,我就担心,这都要让编目员弄懂吗?
然后仔细看BF editor,只有RDA,根本就没有BF词表的痕迹。相信如果BF编辑器界面变化,也不会是词表由1.0到2.X变化所致。
因此我的结论是:编目员只要掌握编目规则就好,不需要像了解MARC一样了解BIBFRAME中有哪些类、哪些属性,哪些有类又有属性,比如“贡献”要这样表达:bf:contribution a bf:Contribution

研究数据服务OA期刊:eScience图书馆学杂志

Journal of eScience Librarianship
开放获取、同行评审期刊,探索图书馆员在支持eScience中的多种作用,目的在于推进图书馆学在数据驱动研究相关服务中的理论与实践,欢迎与教育、宣传、合作、政策、工具和最佳实践相关的理论或实际应用的文章。

JeSLIB创刊于2012年,每年1-2期(目前已出版9期)。该刊得到美国国家医学图书馆NLM、国立卫生研究院NIH等资助,由马萨诸塞大学医学院Lamar Soutter图书馆出版,发布在其机构库eScholarship@UMMS
论题包括但不限于:
* Research data management 研究数据管理
* Librarians embedded on research teams 图书馆员嵌入研究团队
* Data services, including policy development 数据服务,包括政策开发
* Data curation 数据保管
* Data sharing and re-use 数据分享与重用
* Data management plans 数据管理计划
* Data preservation 数据长期保存
* Metadata and discoverability 元数据与可发现性
* Institutional and discipline-specific repositories 机构库与特定学科存储库
* Impact of governmental or institutional policies 政府或机构政策的影响
* Open data, open science and open access 开放数据、开放科学和开放获取
* Data literacy and data education 数据素养和数据教育
* Data citation 数据引用
* Tracking impact of research data, metrics 研究数据影响追踪,指标
* Big data 大数据
* Visualization 可视化

文章页面除了下载量,部分有替代计量测度,如v. 5 (2016), issue 1论文:
From Plan to Action: Successful Data Management Plan Implementation in a Multidisciplinary Project
Altmetric关注度=28(实时获取,显示有延迟)
链接到Altmetric.com页面,可以看到被博客提及3次、转推11次、在Mendeley阅读7次(及细节),并有推主等的学科、研究领域统计(信息来自其帐户的自我介绍)。