英国“国家书目知识库”(NBK)计划

前些天,“国家图书馆与四家大型公共图书馆联合在线发布古籍数字资源”的新闻很吸引人,因为本次上线的数字化资源合计超过了1万册。但细究下来,却有点小失望,因为5家资源并没有一个单一入口,需要分别到各家网站的特定网址(有的似乎还隐藏得挺深),才能查询利用。(访问路径参见国家古籍保护中心微信公众号
虽说时代不同了,当年各家图书馆缩微民国期刊、然后汇总到北图的事大概很难再有了,但建设一个统一的查询入口,不但具有可操作性,而且无论对图书馆还是其用户都是绝对有必要的。欧美已经做了多年,Europeana和DPLA都很有影响力,也相当实用。

今天看到英国正开始一个类似的国家级项目——“国家书目知识库”(NBK):
National bibliographic knowledgebase

2016年10月JISC资源发现主任在其博客中首先提出NBK。项目旨在改进对印刷和数字资源的获取,最终走向国家数字图书馆。大英图书馆(BL)新近加入,将与英国研究图书馆(RLUK),学院、国立和大学图书馆学会(SCONUL)一起,与JISC合作展开此项目。
“如果JISC雄心勃勃的服务愿景得以实现,NBK无疑将在未来几年中成为英国信息基础结构的核心组件。”

via JISC Blog: Metadata: the key to collaboration and a national bibliographic knowledgebase / by Neil Wilson(大英图书馆馆藏元数据部主任). 16 February 2017.

IFLA采访和馆藏发展部2017年会征文

IFLA 2017年会将于8月19-25日在波兰华沙举办。IFLA采访和馆藏发展部发布年会征文,主题是“数字馆藏和数字图书馆网络,及其如何为本地馆藏发展和管理提供新机会”。
会议报告时间15分钟以内。要求原创、以前未发表作品,先提交500字以内摘要,可以用任何IFLA官方语言(意味着可以用中文)。
时间节点:摘要提交截止期2017年2月28日,4月1日通知是否入选,6月1日提交全文。详见会议网站通知:
Call for Papers: Open Sessions / Acquisition and Collection Development Section (9 January 2017)

即使无意参会,把征文要求阐明内容当作论文选题指南也不错。

via [IFLA-L] CFP: Acquisition & Collection Development Section Open Programme (2017) (2017-1-9)

——— Call for Papers: Open Sessions ———
关注数字馆藏和数字图书馆的网络,以及由此导致的新馆藏发展和管理机遇。数字馆藏和数字图书馆扩展了印刷馆藏的宽度,扩大了学术和文化证据的规模,支持创新研究和终身学习。使得我们能够合作创建新的数字服务环境,图书馆在此环境中负责配置访问共享的信息世界。在此网络化在线信息空间,用户可以发现、定位、获取并越来越多地使用信息。大规模数字图书馆服务环境让我们管理有关馆藏及馆藏中单件的信息,通常贯穿其整个生命周期。它支持图书馆对其馆藏的管理、监控参与及确保公平利用所要求的全范围管理、事务和保管功能。与更大的机构间网络、数字馆藏和数字图书馆连接,对地区、全国和国际层面的馆藏发展与管理提供了新的重要机会。对IFLA采访和馆藏发展部来说,这是一个完美时间,对图书馆在数字馆藏上的合作进行概念化,证明数字馆藏及数字图书馆如何创建,如何在地区性、全国性或国际性网络环境中连接。

……要求阐明:
** 联盟环境中创建数字图书馆的个案研究,附使用实例
** 本地拥有印刷资源的分布式数字内容,经由机构间集成,建设历史遗产收藏新集合的实例
** 数字馆藏及其如何影响维护或保存:个案研究,涉及:
o 数字馆藏网络对本地/协作保存或放弃印刷馆藏的影响
o 为发展回溯数字化资料和文化遗产的新数字馆藏,图书馆可能创立的选择或馆藏发展准则
** 扩展本地馆藏
o 图书馆如何借助本地印刷或缩微馆藏,链接到可以获取和访问的数字化网络中全文的实例
o 说明这些网络如何满足所有用户的需求,例如由于视觉或学习问题,用户要求不同的文本选项
** 特别欢迎个案研究(如HathiTrust, Europeana或其他大型数字图书馆),证明创建这样的大型图书馆,如何影响个别图书馆馆藏和服务的发展

HathiTrust发布1374万册图书的抽取特征数据集

2016年12月5日,HathiTrust(HT)宣布发布1374万册图书的“HathiTrust研究中心抽取特征数据集”简称EF数据集(Big (and Open) Data for Scholarship of All Sizes: A New Release of the HathiTrust Research Center Extracted Features Dataset) 。此开放数据集为1.0版,包括公共域图书和有版权的图书,较2015年初次发布的、包含480万册公共域图书的0.2版,规模扩大很多。

HathiTrust Research Center (HTRC) Extracted Features (EF) Dataset, Version 1.0
本语料库数据抽取自HTDL的1370万册书,超过50亿页,标识(词)超过2T。包括从16世纪到20世纪后期的出版物,供研究历史和文化趋势、论题兴衰、用词和写作结构的进化。
数据集提供逐词的量化信息,有关词和行数、词性及每卷每页中的其他细节。除了完整集,研究者也能用EF数据集仔细分析给定卷或某些卷子集的内容。
量化特征包括卷层次特征和页层次特征(含页头、页身、页脚信息),并提供文中每个词的标记信息。详见:Extracted Features Dataset

数据开放,是希望得到利用。据称2015年EF数据集的初步发布,已经让经济学、历史、语言法、文学研究和社会学等方面的学者能够进行与众不同的研究。若干例子见:
Extracted Features in the Wild (last modified on Jan 14, 2016)
Word Similarity Tool(词相似度工具)
HT+Bookworm(术语交互分布可视化)
Within-Book Topic Modeling(书内论题建模)
A Topic Model of Fiction(小说论题模型)

关于HathiTrust(HT)、HathiTrust数字图书馆(HTDL)和HathiTrust研究中心(HTRC)
HathiTrust(HT)成立于2008年,由密歇根大学主持,保存并提供数百万数字化书刊的访问(HT数字图书馆),数据来自120多个学术和研究机构。
HathiTrust研究中心(HTRC),由印第安那大学、伊利诺伊大学联合HTDL发起的协作研究中心,通过开发先进软件工具和信息基础设施,实现对不断增长的人类知识的数字记录的高级计算访问,帮助满足研究者面对的处理大量数字文本的技术挑战。