先有“信息时代”,再到如今的“大数据时代”,技术的更新迭代之快,让我们完全晃不过这个“时代变迁”的神来。
记得读过一部经典的科幻小说《基地》(作者是阿西莫夫),里面就是一个社会科学家,用数学预测了人类的发展,这种预测后来由于一个变异人的出现,出现了偏差等等。我想这个故事就是对大数据时代的一种最好的预言,基于数学的预测需要庞大的数据来支撑(亿万的人类),而不能预测小数据(那一个变种人)。
那么如此红火的“大数据”到底是什么?作者在书中给出了明确的解释:大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。就是说,以前我们使用数据时,由于各种原因(数据来源有限,计算能力有限,方法落后等),我们仅仅是取这些数据的一部分(抽样)来使用,而如今,我们可以抛弃抽样,而直接使用所有的数据。
这样做好么?我想这是显而易见的。数据量越少,对随机性的要求就越高,而某种偏差(或是噪声等)会在小数据中被放大。另外,小数据中如果我们再去考虑子类,那么子类的数据将会更加少,准确率更低。
这样做可行么?理论上可行,实际上不一定,甚至是不那么有意义。这里我与书中的一些看法不同,首先,很多计算依然是庞大的,即便如今的高性能计算机,各种技术的辅助,对于很多复杂的计算依然是望尘莫及。另外,我们也许用一亿比数据就能预测出很好的结果,又何必去拿十亿比数据去计算,又浪费时间(等于浪费金钱),可行性差,而准确率的提高又不会很显著。
另外一点,作者指出在大数据时代,知道“是什么”就够了,没必要知道“为什么”。比如产品A卖的好,同时产品B的销量也会上升,那我们就把A和B放在一起卖,自然两者销量水涨船高,根本不需要知道是什么原因导致的A和B的销量上升。乍看起来确实很美好,因为因果关系本就难以分析与确定,我们通过结果来进行变化,只考虑关联性,这确确实实是个省力且讨好的做法。这里我又要引述另一个故事(这篇故事来自《这是个什么样的世界》王文方著),说有这么一个火星人阿布来到地球,它发现站在门前不用有手推门就会打开,它想到了类似的阿里巴巴的故事,于是它到每一扇就喊“阿里巴巴”,门就会应声而开。后来,阿布回到火星,写下如此的报告:根据我多次试验的结果,我确定,我每一次喊出“芝麻开门”是门打开的一个原因。其实,那仅仅是因为门是感应开关的。不要觉得阿布愚蠢,我们实际上经常在犯这样的错误。也许你会说,阿布的实验数量还不够,如果是“大数据”就不会发生这样的事情。也许你是对的(也许未来所有的门都是感应的),但这并不是我想说的,我想说,这种看似因果或是关联的关系,实际上都经不起推敲,要不了多久,问题就会出现,而我们却往往不能发掘错误出现的原因(试想,连因果关系我们都不清楚,错误的出现就更难说了)。
数据的价值发生了根本的改变,从基本用途转变为二级用途,或者叫“潜在用途”,而随着技术的发展,分析技术的门槛越来越低,拥有数据的公司地位将越来越高。时代的变化也带来了巨大的隐患,例如隐私,例如数据公司的垄断,例如通过数据对人的行为作出预测并做出相应的回应(预测犯罪)等等。
对于这样一个变化迅速的时代,任谁也无法预测未来(否则那就不是未来了),即便使用大数据也是如此。种种好处随之而来,种种隐患也已种下,对于“大数据”时代的优与劣的评价还为时尚早,如何让“大数据”健康的发展,我想这终归是任重而道远的。
有关大数据的一些想法
《Big Data》热门书评
-
故作惊人语的《大数据时代》
681有用 43无用 阿九 2013-08-01
花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打...
-
未知的information,已知的technology-写给未来的思维范式
132有用 4无用 Miss power 2013-02-11
两年前,还是社会学专业的我最喜欢翘的课叫做”社会统计学”,与其听着传统死板的抽样调查与回归分析,我更喜欢和一个做数据挖掘的数学系同学四处溜达。“数据挖掘(Data mining)是什么?”她跟我举了一个最简单的例子:“沃尔玛通过对超市里人们购买行为的大量数据分析,发现男人们来买啤酒的时候,通常也会买...
-
大数据时代的金融投资
104有用 7无用 eric 2013-02-13
大数据时代的金融投资思维金融数量化投资由于其巨大收益,是大数据最早应用的领域,而其也符合大数据最重要的三大思维变革:1) 不是随机样本,而是全数据。 根据作者的定义, 大数据是指不用随机分析,而采用所有数据的方法。 主要原因有二,一是当前的技术能力让人类可以处理海量的数据, 二是随机样本无法获取某些...
-
一个理工狗眼中的大数据
71有用 3无用 丧心病狂刘老湿 2014-05-10
作为一个学计算机出身的理工狗,我一直忍到自己写完论文才回过头来看这本书。此时距这书出版,已经一年有余,大数据的概念已经甚嚣尘上,无人不知了。 维克托和肯尼思在...
-
你已经体验到的大数据时代
69有用 7无用 星腾 2012-12-19
你认为什么是大数据?如果没有仔细关注过这个领域,也许这是一个很难让人轻松回答的问题,而自己之前也没有那么清晰。但对于数据的直觉和一直以来的理解,告诉自己,如果你能掌握更多的数据,其中会有很多有意思的事情发生。因为我们每个人都有数据在不断产生,而自己也在追踪着数据,习惯性地使用Manictime来记录...
书名: Big Data
作者:
出版社: Eamon Dolan/Houghton Mifflin Harcourt
副标题: A Revolution That Will Transform How We Live, Work, and Think
出版年: 2013-3-5
页数: 256
定价: USD 27.00
装帧: Hardcover
ISBN: 9780544002692