IFLA Journal专辑:研究数据服务(之一)

图书馆研究数据服务在国际上大热,标志之一是有期刊专辑。
最新 IFLA Journal(2016年12月号),包括来自澳大利亚、瑞典、荷兰、瑞士、美国、匈牙利6个国家的7篇文章:
IFLA Journal, Volume 42, No.4 (December 2016)
Special Issue: Research Data Services (2016-12-14)

此议题源自2015年南非开普敦IFLA年会期间,IFLA与研究数据联盟(Research Data Alliance,另一个RDA)的一个分会场,主题是“研究数据与图书馆”。专辑原计划2016年10月出版,现分2个专辑。下一专辑是2017年3月号,会涉及更多国家图书馆。
2015年征稿时的论题参见:研究数据服务关注点(2015-10-10)

International approaches to research data services in libraries
图书馆研究数据服务的国际态度
客座编辑 Michael Witt and Wolfram Horstmann 称,本专辑文章按图书馆实施研究数据服务的合理过程排列:
[1] 识别用户与研究数据有关的需求
[2] 然后学习帮助满足其需求所需的技能(培训馆员)
[3] 然后设计与提供服务(实例)
[4] 最后帮助用户使用服务及相关资源(数据信息素养)

本辑文章及概要翻译如下(概要编译自上述客座编辑文):
Modifying researchers’ data management practices: A behavioural framework for library practitioners
变更研究数据管理实践:图书馆从业人员的行为框架
澳大利亚格里菲斯大学,采用“A-COM-B概念框架”访谈研究人员,以更好地理解研究人员与研究数据有关的行为和相关实践。结果表明,在设计支持研究者进行数据管理的策略中,态度是关键因素。

Research data services: An exploration of requirements at two Swedish universities
研究数据服务:两个瑞典大学的需求探索
两个瑞典大学的馆员推广了“数据保管纲要”(Data Curation Profile)方法,用于访谈多个不同学科的研究人员,探索其进行有效数据管理的需求,尤其对于描述元数据的主题控制和其他需求。

‘Essentials 4 Data Support’: Five years’ experience with data management training
“要点4数据支持”:数据管理培训5年经验
在荷兰,“要点4数据支持”(课程)对超过170名荷兰图书馆员和信息技术专业人员教授数据支持技能,时长6周,方式为现场和在线指导混合课程,或者有指导陪伴的在线课程,或者自主在线课程。

Research Data Services at ETH-Bibliothek
瑞士联邦理工大学图书馆的研究数据服务
(数据服务实例1)瑞士联邦理工学院图书馆采取数据生命周期方法,把在私有、共享和公共领域工作的研究人员结合进相应的访问控制和其他功能层次。

Beyond the matrix: Repository services for qualitative data
超越矩阵:定性数据的存储库服务
(数据服务实例2)美国雪城大学对其“定性数据存储库”进行定制,满足定性及多方法社会调查研究方法的需求,强调保护涉及人类受试者的数据,提供经学术注释把数据关联到发布文本的能力。

Data governance, data literacy and the management of data quality
数据治理、数据素养和数据质量管理
匈牙利所做文献综述和讨论,探索并注意到数据治理和数据素养间关系。

Data information literacy instruction in Business and Public Health: Comparative case studies
商业和公共卫生的数据信息素养教育:比较案例
一组美国图书馆员考察为什么数据信息素养应当结合进商业和公共健康领域,并讨论如何实现。

ADLS2016会后对话

准备入行的UU同学参加了第十三届数字图书馆前沿问题高级研讨班(ADLS2016)。UU之前参加过南开大学的图书馆学实证研究培训班,这是他首次参加本行的学术性会议。UU这一年大部分时间都在一家大数据公司实习,作为乙方帮助实现甲方的各种需求,很多时候从零开始找解决方案。认真听了两天,会议结束时,UU说觉得哪里不对,主要质疑是大多数报告只有中间部分,没有前后:没有之前的需求评估,不考虑使用者(怎么用的),不考虑实施效益(有没有人要用);没有之后的获取、填充数据(以及使用?)。我力图做出解释(很多时候以关联开放数据为例),有时就只是很苍白的辩解了。

UU:不知道有没有人用,有多少人用,就开始做,不考虑效益。【作为佐证,可参见杨九龙“图书馆技术绩效评价”报告】
我的解释:图书馆的特藏很多,之所以选某些做(比如上图的家谱和盛宣怀档案),就是因为有使用需求。当然特藏总体上都是很小众的,用的人肯定不多,因此也希望项目完成可以扩大使用。
UU:图书馆是为大众服务的,应该承担社会责任,为小众服务是不公平的。
我的解释:学术图书馆和研究图书馆与公共图书馆不同,为研究人员服务正体现其社会责任。如果有效益企业会做,企业不愿意做的需要由图书馆来承担。

UU:都不知道用户会不会用、怎么用,就这么做了,感觉就是告诉领导我在做事。
我的辩解:使用者不知道图书馆资源可以这么用呀。不是说汽车没出现时没人知道自己需要汽车吗?
UU:用户需要的不是汽车,而是尽快从一个地方到另一个地方。【嗯,高铁也行】
我承认,我有时会从资源建设角度,想着图书馆可以做什么,没有考虑使用者需求。但对于数据开放,应该是另一个层面,我的解释:图书馆有大量未被揭示的暗资源,揭示然后开放出来,可以提供给其他人,根据不同需要做开发。就像政府开放数据,有人用来做犯罪地图之类,上图也开放家谱数据,做了开发应用竞赛。【参见陈涛“政府开放数据”、董行“家谱开放数据”报告】

UU:没有需求评估,不考虑使用者是不是这么用。
我的解释:设计系统时也是会考虑用户需求的。比如家谱,设计框架词表有服务一线的专家参与。
UU:报告中大都不提及这些方面,也体现出导向性问题。【提高到“导向性”层面,真得小心】
我的解释:因为这是个偏技术的会议,技术人员更关心在技术上如何实现。
UU:技术实现不是问题。
我的解释:对IT公司实现可能不是问题,对图书馆技术人员是最关注的问题。本次会议有报告提到很多中科院的实践,没有说怎么实现的,听起来就觉得不解渴。【参见张晓林“基于数据与分析驱动的知识服务”报告】
UU:这个报告没有问题呀。
我的解释:图书馆技术人员不能和IT公司比。有能力有条件的图书馆(如上图、重大等)也会做甲方提需求,委托IT公司实现。【参见夏翠娟“数字人文平台”、杨新涯“数字资源管理+门户+服务联盟”报告】

UU:很多报告都是在圈地,建立自己的标准。【知道标准“牙刷说”吗?】
我的解释:按关联数据最佳实践,确实应该复用已有词表(查LOV)。但较小的专题通常没有现成词表可用,只好在已有词表基础上扩展。【会上有“关联数据能力指标”培训,提及LOV】

UU:感觉主要关心中间这块(建词表),数据怎么填充就不管了。【如何借助计算机完成项目,是IT界最关注的问题】
我的解释:就目前来说,没有办法实现计算机自动获取,就只能靠人工。图书馆界一直以来都是人工做的(编目、标引),这部分从研究角度没什么可说的。

会议报告中可视化是个热点,甚至有“没有可视化就是耍流氓”这样的调侃。
UU(今年做了不少可视化工作):可视化是给领导汇报用的,真正的使用者需要实际数据。

UU的感受准确吗?大领导认为,可以做下实证研究。

———- 另外话题:基于核心期刊论文及被引作人才引进评估的局限性 ———
张晓林“基于数据与分析驱动的知识服务”报告中提及这种人才评估方式不靠谱,一是时滞(被引高的都是多年前论文),另一个更重要的是不能反映个人研究能力——可能在很牛的实验室、跟了一个很nice的导师。作为高端人才引进,在原来的研究做完后,就再也出不了成果了。
没想到这个观点今天就被我验证了。中午下班碰到同事,说到现在开始进入课题申报准备高峰,本来就忙,前一天光为一位老师就讲了一下午的课题检索。这个毕业于欧洲某国的博士,现正带着博士生,竟然需要同事从最基础的检索知识教起——因为TA之前从研究内容到研究资料,全部都是导师提供的,自己完全不会。呜呼!

伊利诺伊大学“特藏关联开放数据”项目

伊利诺伊大学(UIUC)于2015年9月获得安德鲁梅隆基金资助“探索数字化特藏的关联开放数据对用户的益处”项目,针对在特藏中使用关联数据——特别是UIUC收藏且已数字化的3个特藏“Motley剧院和服装设计”“1720-1920演员肖像”以及 “Kolb普鲁斯特研究档案”。项目为期20个月,经费24.8万美元。
从项目主页介绍看,项目由图书馆信息学院科学与学术信息学研究中心(CIRSS)承担, 3位主持人均为图书馆员和学院教授双重身份。项目时间已过去大半,前2个特藏的元数据映射已经完成,从基于DC的元数据方案映射到schema.org命名空间;后1个基于TEI,在项目成果页中尚未见映射表。
项目涉及的3个特藏是UIUC早年数字化的。本项目针对现有环境下,“数字化之后,如何最大化这些数字化资源的使用”,提高其有用性。即所谓“数字化特藏在网上,但不是网的一部分,至少没有到它们可以成为的程度”。“转换遗留特藏单件级元数据为关联开放数据(LOD),集成LOD进入服务及最终用户界面,将有助于解决这个问题。这不是新的或独特见解,但在图书馆界,范式转换到LOC被证明很困难,既有技术原因、也有社会原因。图书馆在LOD上、尤其对特藏LOD,经验有限。转换遗留元数据为LOD的最佳实践仍在开发中,LOD对我们用户的假定益处仍有待证明。结果是,没有外来帮助,图书馆迟疑不愿意承担此项任务。由于本领域描述实践的多样性、用户需求的复杂性,推动数字化特藏的转变尤其具有挑战性。需要进一步实验和概念证明,以建立转换遗留特藏元数据为LOD的价值,证明如此做的近期益处”。【译自项目“Context”部分】

项目的4个研究问题如下【译自项目“Research Questions”部分,方括号为本人体会】
1、与一般馆藏目录记录相比,数字化特藏的单件级元数据通常更细粒度,在非书目实体上更丰富,使用定制词表和方案表达。当转换遗留特藏元数据记录为LOD时,会遭遇什么差别和附加挑战?【转换到LOD】
2、典型地,用于发现和观看数字化特藏的界面,是与OPAC和提供通用馆藏用户访问的辅助服务分离的。LOD能否重新连接图书馆特藏和普通馆藏?【整合特藏和普通馆藏】
3、数字化特藏也与外部、网上的非图书馆信息资源分离。如何借助LOD帮助识别与建立这些资源的有用连接?非图书馆资源是否有潜力丰富单件描述,提供发布和解释数字化特藏的环境?【用外部资源强化】
4、通常特藏单件的描述包含对人物和关系的大量引用。新兴的可视化和注释技术能否增加特藏的社会网络视图,对传统的书目中心视角起到有用的补充?【强化关系视图,尤其通过普鲁斯特档案】

——— 三个数字化特藏 ———

看前2个特藏的元数据,比一般书目信息丰富,如前研究问题1所述,粒度较细。此2特藏间在内容上有一定的关联性,通过关联数据联系起来,会有更丰富的呈现效果。
《Motley剧院和服装设计》元数据项目:图片名,演出名【戏剧】,作者/作曲者,剧院,开演日期,实物,类型,材料/技术,支撑,尺寸,相关人物,主题(AAT),主题(TGM),主题(LCSH),登记号,特藏
Captain de Foenix
《1720-1920演员肖像》元数据项目:ID号,题名,日期,角色,戏剧,主题【演员/扮演者等】,类型,尺寸,技术,创作者,出版者,描述,权利,物理收藏,存储库,特藏
如本例所见:William Farren II as Lord Ogleby in “The Clandestine Marriage”

元数据更丰富的是《Kolb普鲁斯特研究档案》。该档案是UIUC教授Kolb五十年(1945-1992)间研究普鲁斯特的资料,标识普鲁斯特书信中提及的个人、地点、事件;约4万张交叉参照索引卡片【出版物中相关内容摘录,有出处】。已经做的“数字化增加了第二层有用的元数据和规范控制:所有被引个人被赋予独特标识符,所有被引文学和创作作品被赋予一个类别(小说、诗歌、音乐、雕塑等),所有书目引用被标准化,方便链接这些元数据到资源如数字化报纸(大多数当时的法文报纸已被扫描,可由法国国家图书馆获取)和其他数字代理(数字化图书和图像或声音库,普氏本人手稿,同样由法国国家图书馆数字化及收藏)”。“为此档案创建的本地名称规范档,用日期(出生、死亡、结婚等)增强了名称串,包括对职业和/或亲属关系的注释。为协调名称与外部规范,与每个名称相关的这些辅助信息将方便识别和消歧。……期望潜在的用户贡献注释来链接名称与附加资源中的实体”。

参见:
梅隆基金项目数据库:Linked Open Data for Digitized Special Collections
项目主页:Linked Open Data for Special Collections
内容丰富,包括栏目:关于本项目、新闻报道、方法与成果、特藏介绍、咨询委员会、联系信息
UIUC的另一关联数据项目:伊利诺伊大学BIBFRAME项目