如果你还没有看过这本书,并且对“大数据”带着强烈的兴趣和先天的敏感,那我觉得我有必要给你提个醒,这是一本绝对需要带着批判性眼光来看的书。
作者维克托迈尔在《大数据时代:生活、工作、思维的大变革》讲了大数据时代的三个特征:不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。这三个方面都需要仔细商榷。
讲大数据时代,那就不得不提到与之对应的“小数据时代”,或者称之为“经典统计时代”。传统统计讲究的是随机性(随机取样)、精确性(对应于0.05的P值分界线)和对因果关系的探究。这样看来,书中所讲的大数据时代是与传统的统计学格格不入的。
如果我们盲目地拥抱了这样一种全体代替样本、混杂代替精确和抛弃追求因果关系的大数据时代,那我们岂不是相当于动摇了以传统统计学为根基的抽样检验、分析、试验以及六西格玛工作方法!乃至动摇了以统计学为基础的现代制造业!
我认为,全体样本性、混杂性和追求相关性是大数据本身的特性,但不应该是也不应该成为身处或者面对大数据时代时我们的态度。以下针对这三个对立面分析。
全体样本VS随机样本
大数据,字面意思,必然是将所有的数据都采集进来,理想情况是其样本就是全体。从本质来讲,就是不用抽样分析法这样的捷径,而是采用所有数据的方法来分析和预测。但是样本就是全体这种理想化情况并不存在,即使拥有海量数据的Google和Twitter,仍旧称不上样本等于全体,因为平台的存在和持续使用,还不断地有数据的收集,这种数据收集本身就是产品功能的一部分,因而相当容易实现,除了云储存外,基本不消耗资源。正因为这种数据采集非常容易,而且是瞬时完成的,才具有了全体样本性。
IT公司的大数据化非常容易,也很有必要,本身即是产品功能的一部分,每个数据的产生都能够收集到平台上。以现在手机APP为例,大量的用户在使用过程中会爆出所有可能存在的问题,就可以很方便地给开发人员反馈bug,这就是一种大数据的胜利。对于传统行业,大数据化是一项耗时耗资的活动,抽样是一种必然,即使某个标准曲线的绘制,都要以多点代替直线的方式。比如采购来了10吨的耐火填料,不可能每一袋都取样检验吧。
混杂性VS精确性
用一句通俗的话来说,大数据是“海纳百川”,小数据是 “精挑细选”。这其实都是各自的特性所决定的。汪洋大海,不会因为容纳了一条臭水沟而浊气熏天,故而更彰显其兼容并包的气度;半亩池塘,如果藏污纳垢,俨然会是另一番情形。
大数据,因为要收集所有可能的情况,所以一些异常点或者误差点会混入到数据中,也就是说,大数据要将所有的小概率下发生的情况也计入;传统统计学则不同了,一组数据中,要根据平均数等指标计算是否存在异常点,如果存在,则要剔除到数据库之外。其实二者的界限并非如此明显,抽样未必就是那样准确的。
因果关系VS相关关系
大数据时代重视相关关系而不是因果关系,我认为这是大数据应用的特点之一,而不是我们的终极目标。大数据的核心是从海量的数据中,通过套用最合适的模型来进行预测。极端一点的例子就是,预测南美洲一只蝴蝶煽动翅膀,会不会导致在西太平洋海岸发生暴风雨台风或者旱灾。但是二者之间存在什么因果,或者是A影响B还是B影响A,大数据说不清楚。有点像知其然不知其所以然。这是要竭力避免的。
但是,利用和大数据特征相悖的经典统计学指导下的实验,我们却可以探究事物间复杂的因果关系,包括相关关系。不是和预测风暴的大数据一样神奇吗?试着想象一下统计学家和大数据专家相遇场景。
本书译者在其序言中引用了Clifford Geertz的话:“努力在可以应用、可以拓展的地方,应用它、拓展它;在不能应用、不能拓展的地方,就停下来。”恰如其分,这就是我对“大数据”的态度。序中Susan Langer的那段话同样是对那些盲目唱和者的一个温柔提醒:“每个人都想迅速地抓住它们,作为进入某种新实证科学的法宝,作为可以用来建构一个综合分析体系的概念轴心。这种‘宏大概念’突然流行起来,一时间把几乎所有的东西都挤到了一边。”
在拥抱大数据之前,在这种宏大概念流行之前,先搞好自己的“经典统计小数据”吧。做好数据量化和储备收集,提高数据的可循环利用性,这比你我皆言大数据的蛙声一片要深刻得多。
对大数据时代的批判性思考
《Big Data》热门书评
-
故作惊人语的《大数据时代》
681有用 43无用 阿九 2013-08-01
花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打...
-
未知的information,已知的technology-写给未来的思维范式
132有用 4无用 Miss power 2013-02-11
两年前,还是社会学专业的我最喜欢翘的课叫做”社会统计学”,与其听着传统死板的抽样调查与回归分析,我更喜欢和一个做数据挖掘的数学系同学四处溜达。“数据挖掘(Data mining)是什么?”她跟我举了一个最简单的例子:“沃尔玛通过对超市里人们购买行为的大量数据分析,发现男人们来买啤酒的时候,通常也会买...
-
大数据时代的金融投资
104有用 7无用 eric 2013-02-13
大数据时代的金融投资思维金融数量化投资由于其巨大收益,是大数据最早应用的领域,而其也符合大数据最重要的三大思维变革:1) 不是随机样本,而是全数据。 根据作者的定义, 大数据是指不用随机分析,而采用所有数据的方法。 主要原因有二,一是当前的技术能力让人类可以处理海量的数据, 二是随机样本无法获取某些...
-
一个理工狗眼中的大数据
71有用 3无用 丧心病狂刘老湿 2014-05-10
作为一个学计算机出身的理工狗,我一直忍到自己写完论文才回过头来看这本书。此时距这书出版,已经一年有余,大数据的概念已经甚嚣尘上,无人不知了。 维克托和肯尼思在...
-
你已经体验到的大数据时代
69有用 7无用 星腾 2012-12-19
你认为什么是大数据?如果没有仔细关注过这个领域,也许这是一个很难让人轻松回答的问题,而自己之前也没有那么清晰。但对于数据的直觉和一直以来的理解,告诉自己,如果你能掌握更多的数据,其中会有很多有意思的事情发生。因为我们每个人都有数据在不断产生,而自己也在追踪着数据,习惯性地使用Manictime来记录...
书名: Big Data
作者:
出版社: Eamon Dolan/Houghton Mifflin Harcourt
副标题: A Revolution That Will Transform How We Live, Work, and Think
出版年: 2013-3-5
页数: 256
定价: USD 27.00
装帧: Hardcover
ISBN: 9780544002692