《大数据时代》笔记

《大数据时代:生活、工作与思维的大变革》(英)维克托·迈尔-舍恩伯格,肯尼思·库克耶著;盛杨燕,周涛译. 浙江人民出版社,2013.1. ISBN 978-7-213-05254-5

预测,大数据的核心
01 更多:不是随机样本,而是所有数据
全数据模式,样本=总体
02 更杂:不是精确性,而是混杂性
允许不精确
03 更好:不是因果关系,而是相关关系
建立在相关关系分析法基础上的预测是大数据的核心
04 数据化:一切皆可“量化”
数据化,不是数字化
05 价值:“取之不尽,用之不竭”的数据创新
数据创新1:数据的再利用
数据创新2:重组数据
数据创新3:可扩展数据
数据创新4:数据的折旧值
数据创新5:数据废气
数据创新6:开放数据
06 角色定位: 数据、技术与思维的三足鼎立
专家的消亡与数据科学家的崛起
07 风险:让数据主宰一切的隐忧
08 掌控:自由与责任并举的数据管理

———-乱弹———-
看到“混乱,简单地说就是随着数据的增加,错误率也会相应增加”,“混乱还可以指格式的不一致性,因为要达到格式一致,就需要在进行数据处理之前仔细地清洗数据,而这在大数据背景下很难做到”(p.47-48),特别欣慰──每次做馆藏利用统计时,看到乱七八糟的原始数据,特别无奈。现在,放心了,因为“执迷于精确性是信息缺乏时代的模拟时代的产物”(p.55)。
———-思考———-
已有数据如何利用之外,如何采集与利用“数据废气”
数据废气“是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。许多公司因此对系统进行了设计,使自己能够得到数据废气并循环利用,以改善现有的服务或开发新服务”(p.146)。
复旦图书馆的电子资源利用统计就是采用此法

为RDA做准备:从基础到实务(RDA系列讲座)

应萧馆长之邀,为厦大馆中西编馆员准备一天的培训,要求从FRBR讲起。回顾自己近年所做RDA报告,又参考了七月Barbara北京培训班内容,结合国内情况,准备了五讲,目标是让编目员听过后可以用RDA及工具包编目:
1、RDA与FRBR和ICP
2、RDA基础
3、书目记录之描述
4、书目记录之检索
5、使用RDA

开始没起题目,就叫“RDA系列讲座”。后来sogg说厦大打算给省内图书馆发通知,感觉正式起来了,但一时也想不出用什么题目好。考虑到七月培训班题为“RDA理论与实践”,自然不能同名。看JSC官方培训班,6讲以上而又有名称的,也是五花八门:
RDA: What you need to know
RDA is here: Are You Ready?
RDA Seminar
Serials and RDA: An Ongoing Relationship
Georgia Cataloging Summit
最终根据内容确定名称:为RDA做准备──从基础到实务。

今年本校寒假早,放假后到厦门,1月18日做讲座。上午讲完才知道萧馆要求厦大馆的编目部、元数据部(西编)、特藏部、技术部和多媒体部都来听,这样的话,第3-4讲对传统编目的侧重性就太强了──不过真要适应所有人,也是很难做到的,只是应当需要多讲些广义的元数据内容。
讲座内容会在厦大机构库发布。[update 2013-1-23:下载链接]

离开厦门前和萧馆等在咖啡馆聊天,才明白他要多媒体部来听的原因──希望多媒体部先用起来,用FRBR揭示资源。而我在第3-4讲的细节部分,基本沿用JSC官方培训的思路,主要以MARC21为例讲与AACR2的差别,没有涉及非MARC应用问题。若要做较大范围的RDA培训,不只以编目员为对象的话,应加入针对其他元数据应用的内容。
没有受过传统编目训练的人,使用RDA会不受束缚,相对AACR2而言确实较宜掌握。相信今年中译本出版后,对国内RDA应用会有一个推动。

为RDA做好准备,无需惊慌失措

RDA将于3月31日全面实施。上一次编目规则改变是1978-1981年由AACR改为AACR2,恐怕大部分现任编目员都没有经历过,因而对编目规则改变的实施会有所担心。
RDA Toolkit博客发文“为RDA做好准备,无需惊慌失措”,转发AUTOCAT邮件组中,MARCIVE, Inc.公司(猜想是个编目外包公司)的编目与规范经理、ALA-ALCTS-CaMMS(编目与元数据管理部)前主席Mary L. Mastraccio对开始准备改用RDA提出的十一项建议──和我刚发的RDA主要信息源十分吻合,想是未曾遗漏。
自己之前也曾对准备实施RDA提出过建议,但没有这么系统。现摘译如下:
1、第一步是放松,此阶段不需要改变主要工作流程。
2、确保本地系统设置,接受新MARC字段。RDA特定的MARC字段见LC文档(最新RDA in MARC)。
3、日常检查LC网站看RDA新闻及变化(http://www.loc.gov/aba/rda/),以便跟上可能影响你们未来做法的实施实践。
4、对发展细节,包括FAQ及PPT,检查JSC网站(http://rda-jsc.org/rdapresentations.html)。
5、使用LC的RDA培训网络会议(http://www.loc.gov/catworkshop/)
6、寻找是否有计划中的培训课程。检查系统供应商或本地或全国的图书馆协会,见ALCTS联机学习网站(http://www.ala.org/alcts/confevents)。
7、使用RDA Toolkit的帮助、工作流程和映射表。
8、确定本地系统所需,培训工作人员认识、输入与使用新数据。
9、如果全域更新可改善图书馆数据的有用性,找出可以做什么、谁来做,无论是一次性回溯转换计划,还是持续的编目。
10、如果由MARC记录服务或规范服务[外包]得到记录,可能需要对需求文档做某些改变,以确保在新编目环境下得到你所需要的。比如以往许多图书馆要求去掉所有关系词……
11、如果考虑更换集成系统……(忽略吧)

Via RDA Toolkit Blog: Getting Ready for RDA without Panicking (14 Jan 2013)