OpenRefine数据处理工具

承蒙访学海外的云影提供ALCTS虚拟会议“元数据自动化”(We Can Do It, You Can Too! Metadata Automation for Everyone)的会议报告,其中介绍了很多元数据处理工具,比如Excel扩展KutoolsTextWrangler大数据集文本处理(支持正则表达式替换)、Tableau Public可视化等,以及最为常用的OpenRefine、MARCEdit
几个报告中提到的OpenRefine应用涉及数据审核与分析、数据清洗与调和,包括分面、过滤、分簇与编辑、正则表达式转换、外部数据源调和(增强),甚至还能用于转换元数据方案(从DC到MODS、MARCXML),相当强大

OpenRefine就是原来的Google Refine。密歇根大学Bentley历史图书馆ArchivesSpace项目,曾使用Google Refine,通过VIAF API查询LC规范记录,增强档案记录中的名称和主题。参见:利用关联数据、验证名称和主题(LC和VIAF)(2015-8-30)

OpenRefine是安装后本机运行的软件,可以处理的数据文件大小取决于电脑内存(4G内存上网本,无法加载85MB的Excel文件)。
基础应用有Excel知识就行,表达式可选3种语言:GREL(General Refine Expression Language)、Jython(Python的纯Java实现)、clojure(Java平台的Lisp方言)。高级应用需要了解JSON

OpenRefine网站:http://openrefine.org
最新软件为2013-8-27的2.6版(存储于amazon S3,如无梯、能否下载成功看运气)。入门wiki在github(包括GREL语法)。
软件解压后执行,需要Java环境,如电脑没有安装过JRE,会自动打开浏览器到Java官网下载页面,下载安装即可。有意思的是安装过程中提示Google Chrome可能无法使用 Java 插件,实际完全没有问题。

OpenRefine中文资料不易找到。基本功能可参考Google Refine 2.0的3个视频,已有热心人士从Youtube转到优库。

0、运行程序,自动启动浏览器,网址:http://127.0.0.1:3333/
导入数据4个途径 :1 本机,2 网址(URL),3 剪贴板,4 Google数据
支持多种格式数据导入,包括CSV, Excel (.xls 和 .xlsx), JSON, XML, RDF等;导出数据格式有CSV, Excel, HTML, ODF电子表格以及自定义模板。

一、清洗数据(参见视频:Google Refine 2.0 -1. Explore Data (1/3)
1、找到问题数据
(1)分面(facet),分组结果显示在屏幕左栏
文本分面:不同取值及出现数量,可按字顺/数量排序,易于发现不一致取值。可直接批修改/替换。
数值/时间分面:不同取值分布图,可调节取值区间、找到可能有问题的数值。还可对数值进行操作(比如取对数)改变显示的分布图,以更清楚了解数值是否在合理区间。
(2)文本过滤(filter),查找特定值,可以用正则表达式。后续修改/替换等处理可仅针对过滤后部分。
(3)排序(sort),可设定有效值、空值、错误值的排序位置,易于找到问题数值。
2、批处理(edit cells)
除了上述1找到问题数据后直接处理,还有更强大的批处理功能:
(1)通用转换(common transforms):去空格,改大小写,改取值类型(文本、数值、日期)等
(2)编辑/修改/替换:修改单元格值时,可选择适用所有相同单元格(apply to all identical cells)
(3)自动归类相似取值(Cluster):可一键合并为相同值。这是快速完成数据一致性处理的强大工具。
(4)定制文本转换(transform):使用各种表达式(公式/函数),结果即时预览,确认正确后再执行。
可惜“帮助”缺少样例,对新手不够友好。
(5)电子表格通常有的功能当然也是有的:分列/合并、填充等。
向下填充是智能的,无需指定范围、自动复制其值到后续空格。
3、最后也是最重要的,所有操作历史自动保留
(1)可随时通过回退Undo/Redo找回某个处理前的状态——只要选择到某步骤,单击即完成回退操作。
(2)处理步骤可复制(比如用于对另一批数据做相同处理),可抽取(Extract)复制操作代码,粘贴到Apply窗口运行(当然也可在运行前修改代码)。

二、转换格式(参见视频:Google Refine 2.0 -2.Clean and Transform Data (2/3)
把其他格式数据(清单、键/值等),通过分组处理、行列变换等转换为需要的电子表格形式。
视频为维基百科格式的清单改为表格的详细实例。导出模板默认为JSON格式,可修改模板为其他格式。

三、增强数据(参见视频: Google Refine 2.0 -3. Reconcile and Match Data
通过API获取外部数据,增强电子表格中的内容。视频中有3个例子:
1、由具体地址获取经纬度(wiki.openstreetmap.org/wiki/Nominatim)
先新增栏(edit column -> add column by fetching URLs),通过调用URI取得返回值(JSON格式),再由返回值栏分析结构取出经纬度部分(parseJson())
2、分析语种(google语种检测API):方法同上。
3、为电影清单增加信息:评价网站链接,导演、主演等其他信息。
菜单中选择Reconcile。默认从Freebase获取数据。可惜Freebase2016-8-30将关闭,软件的这部分需要更新了。

CCEU2016年年会参会记

艾利贝斯集团产品中国用户协会(CCEU)2016年年会日前在贵阳召开。去年底Proquest并购Ex Libris(艾利贝斯),保留Ex Libris名称并将旗下相关产品纳入其名下。本馆年初上线发现系统summon,也因此成为艾利贝斯产品用户。
本次会议共有20多个长度为半小时的报告,有宏观的、也有结合产品的。会议日程紧凑,设分会场容纳所有报告,因而听者必须有所取舍。此次被馆里指派参会,并未明确任务,考虑到本馆正调研图书馆自动化系统,因此首选Alma、次则summon相关报告,对照会议日程,切换了几次会场。

[update 2016-7-12] 会议网站现有PPT下载(不完整)

——— Alma ———
以下信息来自艾利贝斯副总裁Mr Shlomi Kringel、技术支持总监Ms Adi Fubini,香港中文大学(深圳)图书馆馆长张甲、艾利贝斯北京代表处(即将升格为公司)沈辅成、杨滦、董晨晨等的报告【方括号中信息来自今年图书馆系统报告等】:
首家用户:目前有700+【大约有300家未上线】。全球首家2012年7月12日上线,中国首家香港中文大学(深圳)定在4年后同一天。上线前,图书馆相关员工必须通过公司的考试。
summon支持【目前Alma系统配套用户搜索界面是Primo】:2016年底将集成summon,2017年2月将有首个用户。
数据中心:全球原有3个(北美芝加哥、欧洲阿姆斯特丹,亚太新加坡),考虑到中国市场的特殊性,将在中国增加1个。目前云产品用户3500+,包括Aleph也有云产品版(哈佛大学目前用云Aleph,为迁移到Alma做准备)。
电子资源管理:知识库本地支持,含DRAA177个库(文章级)、NSTL库(不提供文章级数据)【电子资源管理是Alma强项,可选本地定制库是其中极重要一环】 。有试用资源管理(可邀请指定用户参与、制作问卷并反馈结果),支持用户驱动采访(PDA),有收录电子资源重复比对功能。统计功能支持导入供应商统计数据(此为现场提问,杨滦后私下回答含此功能、但尚未集成到系统界面)。
API接口:现有8大类、133个有明确说明文档的API。有8种计算机语言的代码样例,开发遇到问题可提问并得到及时回复。
文档支持中心(Knowledge Center):最新上线。

——— 发现系统 ———
断断续续关心过发现系统【参见:选择发现系统,什么最重要?】,却完全不了解本馆summon实施情况(面壁……)。
艾利贝斯北京代表处韩进《summon/360Link新增功能及其知识库更新》内容相当丰富,其中有不少需后台操作,可改进summon外观与功能:比如打开Altermetrics,统计报告全面更新,新版电子期刊导航7月28日可选择激活(整合乌利希期刊指南信息),新增需处理的更新提示(90天后提醒消失)。
金玉玲《大连理工大学Primo实施》介绍的该馆“百川搜索”比较有特点:一是采用SaaS方式(不知道大陆有几家采用云服务的),二是通过多个本地系统的实时读取(印刷书刋从汇文系统、学位论文从麦达系统)或联邦检索(超星发现)来整合资源,整合服务(CALIS馆际互借)。

——— 图书馆面对变化该怎么做 ———
图书馆纸质资源利用下降已是众所周知,没想到的是,北大馆主页访问量也是逐年持续下降。在此大环境下,图书馆转型是必须的选择。
新加坡管理大学馆长助理Ms Shameem Nilofar报告起首引用“唯一不变的是改变”,结束引用David Lankers教授的“名言”(中文“bad”翻译得比较客气),为图书馆指出一个方向:
Bad Libraries build collections 一般的图书馆建立馆藏
Good Libraries build services 优良的图书馆提供服务
Great Libraries build communities ……建造社群

聂华《后图书馆系统时代思考》谈北大图书馆2018行动计划,从管理导向到读者导向:机构重组,业务重塑,创新服务,合作关系。
创新服务3个板块:学术交流板块-学术成果生态系统,研究支持板块-图书馆新学科服务,学习支持板块-空间作为一种资源。每个板块都有很丰富的内容,比如学术成果生态系统(不完全记录):
机构知识库,重点是结合人事系统,使用Dspace开发;
学者库,开始建设163人,随后吸引百余教师自建,采用OpenScholar开源软件;
研究数据,开放研究数据平台【参见:Dataverse:开源的研究数据存储库软件】;
出版(北京大学期刊网)。

窦天芳《技术与服务深度融合之探讨》介绍清华图书馆众多的混搭应用(不完全记录):
– 研究生毕业提交已发表论文:用馆期刊导航接口,确保期刊及文章信息的准确
– 读在清华,原分散在四个平台,与公司合作快速布署虚拟专题书架。正设想今后可以由教师直接提交专题书架信息。
– 学者主页:从不同来源集成信息。

——— 体会与随想 ———
一、利用升级系统,开展全馆培训,开放功能给更多馆员,鼓励馆员发展
张甲《香港中文大学(深圳)Alma实施报告》,介绍该馆全员参加系统切换,采编、流通、技术、参考,不分部门学习全部模块功能。由于培训资料都是英语,英语不好的与英语好的配对共同学习。
该馆是新馆,馆员多新入职场或者从其他行业转来,缺少图书馆专业知识,通过此次系统上线,结合请兄弟馆培训专业知识,完成对馆员的培训。
张甲馆长的这个思路相当赞!设想如题,不展开。

二、自我宣传、功能改进
清华介绍“读在清华”的专题书架,联想到本馆从2011年开始借阅排行、到2012年开始推荐书目、再到2014年开始主题书展,一直采用类似的虚拟书架,依托OPAC快速生成页面。
当年想到就这么做了,因为技术上完全没有实现难度,没想过是个值得书写宣传的点,是不是有点可惜?
另一方面,过了这么多年,功能上确实也该做些更新升级。直接在页面中整合电子资源试读或直接访问,应该是马上可以布署的改进。

——— 相关信息:关于图书馆自动化系统 ———
2016图书馆系统报告(2016-5-4)
更换Millennium系统的选择(2016-4-14)
2016图书馆系统风景线(2016-4-12)
下一代图书馆服务平台的前世今生(2014-5-24)

BIBFRAME试验项目培训资料

2015年,LC对参与BIBFRAME试验项目(BIBFRAME Pilot)的编目员做培训,培训资料专页:BIBFRAME Training at the Library of Congress

按网页说法,试验始于2015年8月(项目2015年6月开始)。试验前由LC合作教学部(COIN, Cooperative and Instructional Programs Division)4位成员做培训。
培训共3个模块,分别是:1语义网和关联数据导论,2BIBFRAME工具导论,3使用BIBFRAME编辑器进行书目描述。不过三个模块的PPT均为语义网和关联数据基础。模块1和2共有三个测试(Quiz),可以测测自己对语义网和关联数据基本知识的掌握程度。另有两个作业,分别是阅读资料和观看视频,可视为最基本参考文献:

作业1
– 阅读W3C“语义网使用案例和案例研究”中Europeana的案例
Case Study: Enriching and sharing cultural heritage data in Europeana (2012年6月) (2.5页)
解释Europeana为什么要对其数据采用语义网模型(EDM)
– 观看视频(来自YouTube和Vimeo,均需翻墙)
a. Linked Open Data – What is it? (3:42 minutes)
europeana介绍关联开放数据(LOD),非常形象化,通俗易懂
b. About Linked Jazz (6:37 minutes)
介绍爵士乐关联数据项目Linked Jazz,把访谈中涉及的人物做关联数据标识,采用DBPedia和VIAF、LC规范档URI。
【初以为图书馆的规范档主要是图书作者,对于非作者,恐怕只有极少数被当作图书研究对象(如传记)的人物才会收录。再细想,图书馆收藏很多非书资料,音像资料中会有很丰富的创作者信息,爵士乐相关人物可以用LC规范档也就不奇怪了】

作业2
– 阅读“RDF 1.1入门(RDF 1.1 Primer)”片断:1 导论;3.4 空节点(2.5页)
– 阅读“BIBFRAME: Why? What? Who?”(9页)
– 看视频:BIBFRAME: Update & Practical Applications (2014/09/04) (100 minutes)

———-LC BIBFRAME Pilot工作流程———
与BIBFRAME测试直接相关的是模块3第2单元的PDF文件,介绍BIBFRAME编辑器的使用。网上发布的为供不参加测试项目者用版本。

Module 3: The BIBFRAME Editor and the LC Pilot
Unit 2: The BIBFRAME Editor
This version intended for persons external to the Library of Congress BIBFRAME Pilot
Prepared by Tim Carlton and Paul Frank, Cooperative and Instructional Programs Division, Library of Congress
September 2015

其中第4单元工作流程,可了解试验的具体方法:
– 参与者对同一资源分别使用MARC和BIBFRAME创建书目描述。
首先在图书馆自动化系统中,用MARC按常规编制记录,另需在985字段“记录历史”中标记为测试记录,形如:985 ##$cBibFramePilot$e20150820
随后用BIBFRAME编辑器,查询先前在ILS中编制完成的记录,再选择相应模板(Profile)做编辑:
— 如果查到“BIBFRAME作品”描述,则选择“BIBFRAME实例”模板
— 如果没查到“BIBFRAME作品”描述,则选择“BIBFRAME作品、实例”模板
— 完成后保存,描述会转换为XML,导出到MARKLogic数据库,再导回BIBFRAME数据库。

注:采用LC联机目录的“专家搜索”查哪些记录参加了BIBFRAME测试,共1453条(远多于提供打包下载的891条BIBFRAME试验记录,参见:Library of Congress BIBFRAME Pilot update, 31 Mar 2016)。
大致看一下,记录中包括不少电子资源(报刊,非计算机程序),多按连续出版物做(头标s),也有一条按集成资源做(头标i:Atlanta studies),没看出差别。另外,发现访问链接都没有用856字段,而是用859字段,为什么?