《大数据时代:生活、工作与思维的大变革》(英)维克托·迈尔-舍恩伯格,肯尼思·库克耶著;盛杨燕,周涛译. 浙江人民出版社,2013.1. ISBN 978-7-213-05254-5
预测,大数据的核心
01 更多:不是随机样本,而是所有数据
全数据模式,样本=总体
02 更杂:不是精确性,而是混杂性
允许不精确
03 更好:不是因果关系,而是相关关系
建立在相关关系分析法基础上的预测是大数据的核心
04 数据化:一切皆可“量化”
数据化,不是数字化
05 价值:“取之不尽,用之不竭”的数据创新
数据创新1:数据的再利用
数据创新2:重组数据
数据创新3:可扩展数据
数据创新4:数据的折旧值
数据创新5:数据废气
数据创新6:开放数据
06 角色定位: 数据、技术与思维的三足鼎立
专家的消亡与数据科学家的崛起
07 风险:让数据主宰一切的隐忧
08 掌控:自由与责任并举的数据管理
———-乱弹———-
看到“混乱,简单地说就是随着数据的增加,错误率也会相应增加”,“混乱还可以指格式的不一致性,因为要达到格式一致,就需要在进行数据处理之前仔细地清洗数据,而这在大数据背景下很难做到”(p.47-48),特别欣慰──每次做馆藏利用统计时,看到乱七八糟的原始数据,特别无奈。现在,放心了,因为“执迷于精确性是信息缺乏时代的模拟时代的产物”(p.55)。
———-思考———-
已有数据如何利用之外,如何采集与利用“数据废气”?
数据废气“是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。许多公司因此对系统进行了设计,使自己能够得到数据废气并循环利用,以改善现有的服务或开发新服务”(p.146)。
复旦图书馆的电子资源利用统计就是采用此法。