研究数据管理书目(2009-2017)

曾在博文“Data Curation:数据监护?数据保管?”(2011-5-22)中提及此书目,现在这个书目更新到了第9版,含2009-2017年著述:
Research Data Curation Bibliography / Charles W. Bailey, Jr. VERSION 9: 4/18/2018

近年国内 Data Curation 研究热度不减,CNKI收录文章在2016年达到峰值95篇,2017年第2高值73篇。查该术语翻译五花八门,大致有:管护、监管、监护、策管、策展、管理。以我的理解,在图情领域,Data Curation 约等于 Research Data Management (RDM),本书目中有大量文章含后一术语,比data curation更多,因此觉得不妨用“管理”一词更具包容性。

要做研究数据管理,这个书目是不错的参考源。
本书目收录750种精选英文文章、图书和技术报告,含访问链接,在不违反版权的情况下也包括摘要。内容涉及:研究数据创建、采访、元数据、出处、存储库、管理、政策、支持服务、资助机构要求、开放获取、同行评审、出版、引用、共享、重用和保存等主题。
比较可惜的是,书目是按作者字顺排序,没有对论著做简单的分类以方便浏览。也没有嵌入引文数或替代计量数值,辅助评估选择。

关于 data curation,本书目在导言中引用 Christopher A. Lee 和 Helen R. Tibbo 对 digital curation 的定义:
“digital curation涉及创作者和档案工作者的选择和评估,不断提供智力接入,冗余存储,数据转换,并且对于一些材料而言承诺长期保存。digital curation是管理(stewardship),提供认证数字数据和其他数字资产的可重复性和重复使用。开发值得信赖和耐用的数字储存库,声音元数据创建和捕获的原则,使用文件格式和数据编码的开放标准,以及提高信息管理素养,对于数字资源的长期使用和curation工作的成功都至关重要。

“第五届全国文献编目工作研讨会论文集”笔记

去年11月参加第五届全国文献编目工作研讨会(参见:第五届全国文献编目工作研讨会:笔记 ),照例收到论文集1册:
中国图书馆学会学术研究委员会信息组织专业委员会编. 回顾与展望:新媒体时代下信息组织方法的创新与发展——第五届全国文献编目工作研讨会论文集. 国家图书馆出版社, 2017.11. ISBN 978-7-5013-6288-2

这几天有空翻看,发现国图作者比例极高,真是人才济济。于是数了下,收录论文共69篇,国图49篇占71%:一等奖4篇(国图2篇50%),二等奖9篇(国图6篇67%),三等奖17篇(国图12篇70%),优秀奖16篇(国图11篇69%),交流论文23篇(国图18篇78%)。
以下摘取对我而言是新知的6篇论文概要(二等奖、三等奖各有一篇讨论PRESSoo和ROAD),作者都是国图的:

赵敏、宋文燕. PRESSoo对我国连续性资源编目的影响. 第91-99页.
ROAD(the Directory of Open Access scholarly Resources开放存取学术资源目录)是一项在联合国教科文组织交流和信息部门资助下由ISSN国际提供的免费服务,起始于2013年12月。其创立目的主要有四项:(1)为以开放存取出版的各类在线学术资源提供单独的访问点;(2)提供关于OA资源质量和声誉的信息;(3)在世界范围内提供开放存取学术内容的概述;(4)展示使用ISSN收集来自各种资源信息的新方式。目前,ROAD提供两种格式的数据,一种是MARC XML,另一种是RDF/XML。其中,后者是基于PRESSoo概念模型建立。
ISSN国际中心以ROAD项目为依托,根据PRESSoo概念模型,利用关联数据技术,将MARC21格式转换为RDF/XML格式……

李仕超. 连续出版物数据的关联与开放. 第130-136页.
ROAD……【由】ISSN国际中心提供免费的ISSN注册数据集(提供180多万条书目记录的订阅服务)。该数据集包括在开放获取(OA)环境下描述学术资源,且已获得ISSN网络分配的国际刊号的书目记录,例如期刊、会议记录等。

刘俊. 国外图书馆随刊光盘管理利用方式分析及启示. 第236-244页.
本文通过电邮调查7家国家图书馆(美国、英国、澳大利亚、加拿大、法国、新加坡、日本)+波士顿公共图书馆,并选取典型刊物查询这些图书馆OPAC,了解随刊光盘的管理及MARC著录方式。

王彦侨. 大数据时代联合目录的质量控制. 第276-281页.
1 联合目录的数据质量:四大要素:完整性、一致性、准确性、及时性
2 联合目录的质量管理:标准规范,管理制度
3 联合目录的数据清洗:人工检查,应用专门程序,针对特定项目的处理,查重匹配
【框架不错,内容略泛】

胡媛. 跨越资源藩篱 共享中文数据——略述中文文献资源共建共享合作会议. 第344-351页.
中文文献资源共建共享合作会议【2000-2016,两岸四地11次会议,除中文名称规范库外,竟然不曾听说】
代表性建设成果:中文石刻拓片资源库(国图),中文名称规范联合数据库检索系统,中国古代版印图录(图书),中文古籍书目数据库,中国科技史数字图书馆(清华),中国家谱总目(图书),中国近代文献图像数据库,中华寻根网(家谱)

王薇. CJK数字图书馆建设现状调查与思考——基于与Europeana和WDL的比较、分析. 第384-390页.
借鉴WDL和Europeana的成功经验,2007年8月南非第73界国际图联大会上日本国立国会图书馆馆长长尾真向中韩两国的国家图书馆提出了《数字存档方面的国际合作》提案……共同建设CJK数字图书馆(China-Japan-Korea Digital Library)项目,以东亚地区文化和学术信息资源为对象的门户网站计划将于2017年9月正式上线。……应用关联数据和语义网,整合数字文化资源,通过跨领域、跨国界的统一网络平台,为用户提供一站式浏览和检索服务……
数字资源内容:中日韩三馆首批分别向网站注入1000种左右的古籍文献。元数据发布……;专题库……可提供全文影像浏览。……两种服务方式兼具了WDL与Europeana的特点。
技术标准:中日韩三方共同认可以DC核心元数据作为数据交换标准。……网站的系统开发由韩方负责。三馆各自拥有不同的检索门户系统,通过WebOPAC检索进行互联与对接。

学术报告“另一个视界”与上图数字人文项目

出于对可视化的兴趣,周五(2017.8.11)去上海图书馆听学术报告。感谢上图开放学术资源让大家共享。

另一个视界:清华大学美术学院向帆副教授和朱舜山工程师学术讲座

会议通知中推荐的报告人微信公众号文章:
《数据追问-全国美展油画作品视觉化解读》
《我是不是有点皇亲国戚?》

报告安排在下午。可惜我在开讲没多久,就因收到私事信息急需处理,差不多一半时间在边听边开小差上网中。所幸前一晚先做了点功课,看过两位报告人的网站Z Lab,特别是其中的 Projects 板块,还能勉强跟上所讲内容。Z Lab网站共有11个项目(没有上述利用CBDB数据的家谱图),看过感觉一是可视化效果很酷炫(如微博地点钟的24小时);二是可视化设计也被作为一种实用的研究辅助工具(如热带森林数据可视化)。
本次报告涉及了Z Lab网站半数以上项目,听现场讲述比看介绍生动很多,尤其对“为什么会这么做”的解释,光看介绍是获取不到的。向帆老师把她的项目定位为现代艺术作品,而不是数字人文(或其他),至于被其他人用作分析工具,也被她视为作品的一部分,全国美展获奖作品分析就是一个典型例子。我的感觉,比如在CBDB家族谱系图、热带森林数据等,可视化应该更多是作为工具。当然由于向老师的美术背景,或许在设计时是作为艺术创作看待的。
问答阶段,向老师提到她也做了不少文本挖掘项目,比如张爱玲、海明威……,数字人文无疑。
听完比较“失望”的是,那些酷炫的效果,大多是朱舜山老师用代码写出来的,没有利用太多工具。视觉设计不易,实现也不具有可复制性。因此,只能是艺术品?两位老师珠联璧合,看得出在性格上也属互补型的。

——— 上海图书馆数字人文项目介绍 ———
当天上午是内部的上海图书馆数字人文项目介绍,希望请两位老师帮助改善可视化界面设计。
刘炜副馆长开场,夏翠娟做总体介绍,上图目前共有7个相关项目:1中国家谱总目(华人家谱总目——上海图书馆家谱知识服务平台),2盛宣怀档案,3名人手稿(上海图书馆名人手稿),4中文古籍联合目录及循证平台,5规范库(含人名、中国历史纪年、地理名词表、收藏机构名录等),6书目库,7上海历史文化时空再造——武康路。其中1、3、4、7后续由各自项目主管(抱歉没听清姓名)做详细演示,尤其是可视化部分。
向老师在看到名人手稿部分时指出:一般的可视化(饼图柱图之类),掩盖了最最让人感动的部分。——话说得没错,只不过图书馆是整理资料的,就像朱老师在整理全国美展获奖作品基础资料时所说的somebody:Somebody has to do the dirty work. 面对海量文献中充满个性化的内容,要当作艺术作品来创作,真的会使项目没有截止期的。
向老师问得最多的问题是:应用场景,用户需求。——或者说用例、故事,确实是需要首先考虑,也是当前图书馆做项目需要强调的,比如最近LD4社群“调和与实体解析工作组”正在征求用例(关联数据的“调和”与“解析”) 。
与邻座tsingove交换意见,作为基础设施的话,有时可能并不针对特定场景(当然那也是场景),提供数据就好,至于怎么用,留给第三方来开发。上图接连两年举办的关联数据竞赛,就是这种设想的体现。夏MM也解释,如古籍系统的某些预设应用,也是咨询过馆内领域专家的,是作为示范,让研究者了解数据可能怎么用,进而提出更多应用场景。
上午会议结束时,Keven总结数字人文项目中三方的角色:图书馆员作为领域专家与计算机开发者之间的桥梁。朱老师补充:要加上第四方设计师,了解用户体验。