大数据这个概念现在可说是红得发紫,有谣传说连中央的大领导们都上了大数据的贼船,寻思着要从维克托•迈尔•舍恩伯格的《大数据时代》中学习如何治国理政。
笔者却对大数据充满了吐槽的欲望,部分是因为笔者曾经遇到过一位大数据的狂热鼓吹者,名言是“是不是科学就看有没有大数据,有大数据就是科学,没有大数据就不是科学,”以及“我觉得宇宙应该是什么什么样的,这样比较符合我的审美。”笔者觉得此人实在是个妄人,手里有把锤子就把一切都当成钉子……
笔者也读过维克托•迈尔•舍恩伯格的《大数据时代》,也并不认为大数据全都是胡扯——大数据肯定是有用的,不过有些鼓吹者恐怕吹得有点过了。而且,大数据还是个出现没两年的新领域,今天认为确凿无疑的东西明天也许就会被发现是错误的。
笔者也读过一些吐槽大数据的文章,比如纽约时报专栏作者大卫•布鲁克斯(David Brooks)的《大数据不能做什么?》大卫•布鲁克斯说,大数据不懂社交。数据分析擅长于分析社会关系的数量而非质量。社交网络的数据科学家可以分辨出6个你的同事,你一天中有76%的时间会见他们。而却很难发现你一个一年只见两次面的童年伙伴。更别说发现像但丁对贝特丽丝的爱情那样,只见过两次面就深爱上对方的情况了。这说明并非所有的信息都能被大数据所利用。大数据会忽略很多信息,有时还是十分重要的信息。
与之类似的是,大数据不懂得背景。我们说一句话究竟是认真的还是开玩笑,是为了表达愤怒还是善意,这些都要放在复杂的背景中来理解,数据分析很难搞清楚这些。
第三,大数据会带来大量毫无意义的伪相关。有人说,现有的数据,多的可以让你想要分析出什么结果,就能分析出什么结果。想像一下,如果领导们发现冰激凌的销量和群体性事件的数量呈正相关会怎么样?随着数据的增长,这种伪相关将呈指数级增长。
第四,大数据不能处理真正的大问题。大卫•布鲁克斯说,如果你想看一下哪些邮件对推广活动最有效,你可以进行随机抽取对比组样本。进行比较。可是,如果我们想模拟一个衰退期的经济体。我们没办法去找这样的一个对比组。我们经常会看到人们争论什么是最好的经济刺激政策。而我从来没有看到争论的双方能够用数据分析说服另外一方的。而治理国家所面对的恰恰是这些大问题。另一方面,大数据也不擅长预测小概率事件,像预测什么时候会发生地震,什么时候会发生恐怖袭击,什么时候会发生革命这种事,数据分析是无能为力的。
第五,数据偏爱潮流,忽视创新——这对领导们来说倒是无所谓的,因为领导们本来就不想要创新。创新对官僚体制来说是件很糟糕的事,有创造力的官僚体制往往会把自己搞垮掉。
最后,原始数据其实并不原始,原始数据往往会被扭曲。对领导们来说,他们所面对的一大问题就是:他们不可能一边封网一边还能收集到真实客观的原始数据。封网和收集真实数据是彼此矛盾的。封网本来是想欺骗别人,最后却可能只是骗了自己。
上面是大卫•布鲁克斯的吐槽和笔者的评论。笔者也有自己的话要说,主要是关于大数据中不管因果只看相关的数据分析方法。
《大数据时代》说,我们知道什么药能治什么病就足够了,不必知道为什么。从这句话中,我们可以看出该书的作者对因果关系的理解有误:统计学上说知道因果关系是指我们高度确定(>95%)某一件事导致了另一件事的发生,而不是说我们知道这种关系背后的原理。换句话说,我们说某药能治某病,这本身就是一种因果关系,无论我们是否知道治病的原理。如果二者之间只有相关关系,我们恐怕就只能说些类似“某种药物的摄入量与某种疾病的发病率之间存在负相关”的话。
因果关系还是相关关系,对我们来说有什么区别吗?区别就在于如果我们只知道两组数据(例如冰激凌销量和群体性事件数量)之间存在相关,那么我们或许可以利用这种相关(例如一旦发生群体性事件就赶紧推车上街卖冰激凌),但是如果想要改变现状,恐怕还是需要知道因果关系才行(禁止冰激凌就能够把群体性事件消灭在萌芽状态吗?谁知道?!只知道相关关系并不能保证这一点)。企业一般只需做到前者就能赚到钱,可是想要管理社会的话,只知道相关大概是不够的。
说到底,大数据是一座矿山,我们能够从中挖到些什么东西是不确定的。对企业来说,只要挖到了东西,赚到了钱,它们也就满意了;如果什么都挖不到,它们也只能怪自己运气不好。但是如果政府想要大数据给它提供“不发生任何意外事件”的安全保证,那么这种保证恐怕是大数据无法提供的。另一方面,大数据也解决不了官僚体制内部沟通不畅、派系斗争和动机缺乏等等问题。
最根本的问题恐怕还在于政府的脆弱性:政府想要稳定,因为变化几乎肯定会对它有害;而市场拥抱变化,因为它总是能够从变化中获益。这两种不同的心态或许决定了数据所能给它们带来的意义。
吐槽大数据
对“吐槽大数据”的回应
《Big Data》热门书评
-
故作惊人语的《大数据时代》
681有用 43无用 阿九 2013-08-01
花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打...
-
未知的information,已知的technology-写给未来的思维范式
132有用 4无用 Miss power 2013-02-11
两年前,还是社会学专业的我最喜欢翘的课叫做”社会统计学”,与其听着传统死板的抽样调查与回归分析,我更喜欢和一个做数据挖掘的数学系同学四处溜达。“数据挖掘(Data mining)是什么?”她跟我举了一个最简单的例子:“沃尔玛通过对超市里人们购买行为的大量数据分析,发现男人们来买啤酒的时候,通常也会买...
-
大数据时代的金融投资
104有用 7无用 eric 2013-02-13
大数据时代的金融投资思维金融数量化投资由于其巨大收益,是大数据最早应用的领域,而其也符合大数据最重要的三大思维变革:1) 不是随机样本,而是全数据。 根据作者的定义, 大数据是指不用随机分析,而采用所有数据的方法。 主要原因有二,一是当前的技术能力让人类可以处理海量的数据, 二是随机样本无法获取某些...
-
一个理工狗眼中的大数据
71有用 3无用 丧心病狂刘老湿 2014-05-10
作为一个学计算机出身的理工狗,我一直忍到自己写完论文才回过头来看这本书。此时距这书出版,已经一年有余,大数据的概念已经甚嚣尘上,无人不知了。 维克托和肯尼思在...
-
你已经体验到的大数据时代
69有用 7无用 星腾 2012-12-19
你认为什么是大数据?如果没有仔细关注过这个领域,也许这是一个很难让人轻松回答的问题,而自己之前也没有那么清晰。但对于数据的直觉和一直以来的理解,告诉自己,如果你能掌握更多的数据,其中会有很多有意思的事情发生。因为我们每个人都有数据在不断产生,而自己也在追踪着数据,习惯性地使用Manictime来记录...
书名: Big Data
作者:
出版社: Eamon Dolan/Houghton Mifflin Harcourt
副标题: A Revolution That Will Transform How We Live, Work, and Think
出版年: 2013-3-5
页数: 256
定价: USD 27.00
装帧: Hardcover
ISBN: 9780544002692