书中所说的大数据时代,有三个要点:
一、数据分析样本不是抽样,而是总体;
二、不再要求精确性,用概率说话;
三、相关性的作用优于因果。
首先,过去的抽样数据分析,有一个假设前提,这样就存在先入为主的因果概念,从而影响数据的选择以及分析。不过抽样的前提其实是在有意识的进行剔除误差值(通过假定)。
因此抽样并不劣于总体,甚至如果假定正确的话,其结果的精确性将是优于大数据的。只不过假定的正确无法得到保证,而当下计算机的运算能力,使得大数据分析的成本降低,因此大数据分析在宏观角度优于抽样分析。
然后如同《失控》里的说法,简单的大量的模型计算是优于复杂的少量的模型计算的,因此大数据分析在这个方面是优于过去的抽样分析,首先多个简单大量模型的成本低,其次大量模型共同作用将降低整个系统计算的误差。
最后相关性优于因果关系,是由于大数据分析在满足第二个条件:接受混乱性和不确定性的前提下,也就无从得知真正的因果关系了,所以也只能是通过相关性来分析因素之间的联系了。同时相关性有很强的功利主义,知其然不知其所以然,白猫黑猫抓住老鼠的就是好猫,只适合于商业短期的决策分析上,而不能作为科学研究的参考依据。
这也是本书一直在用商业短期的决策分析作为举例的原因,大数据分析这种简单的相关性并不适合科研的理论分析。
因此,大数据分析并没有当下说的那么神乎其神,不过本书的一些观点确实是有借鉴意义的。
首先是我们要跳出过去传统的抽样思维,从整体角度考虑用户行为和经济发展,看似在传统社会里没有因果关系的因素,通过大数据分析可以挖掘出新的关系,提供参考。
然后我们需要做的是数据化,而不是简单的数字化。通过把定性的行为和现象不断细分然后定量话,数据化,从而进行分析和探讨,是未来物联网发展的动力来源。
数据的价值不同于其他物品的价值,其可以重复利用,其价值不会由于使用而有所降低,其价值也不限于当下的情景,其当下的应用不过是冰山一角,其价值是随着时间推移而不断变化的。
数据总合的价值是远大于单个数据系列的,首先这是大数据分析特有的性质决定的,因为只有多项数据组成的数据库才能全面的解释数据背后的行为,而单个数据系列是无法做到这一点的。
大数据分析的到来也使得数据价值链出现了三个等级:一、拥有数据的企业;二、拥有数据分析能力的企业;三、有创新思想,可以利用普通数据得出新的结果或商机的企业。
当然第一个企业就存在数据垄断,第二个企业就存在以预测作为判断人真实行为的错误(如基于用户行为对用户进行犯罪假定),第三个企业应该是未来主流的发展思路,即不断挖掘数据冰山下的潜在价值,通过思路而不是技术和数据库。
其实大数据时代的到来不过是由于大数据分析的计算能力成本降低,获取大数据的方式增多且便捷。但是就如同当下认为速度只能接近光速但是达不到光速一样,数据分析只能是接近大数据,但是离真正的完整的大数据还远者呢。
不过通过相关性的大数据分析可以为我们的决策提供快捷的参考意见,而不用等到得出因果关系再进行决策。说到底低成本的运算使得大数据分析成为可能,但是大数据不是万能的,它只是人类应用因果关系解释世界后的另一个工具罢了,最后做出决策的依然是人本身,而不是工具!!
-------------------------------
ps:当下互联网很多媒体都在过分强调大数据的商业能力,却忽视了长尾效应,因为大数据分析主要在于相关性而不是因果关系,那么如果数据显示某位女星的出境次数和收视率成正相关那么制片商就会与改女星签约来保证下一步电影的收视率和票房,可是事实上具体是女星的行为还是花边导致收视率上涨,没有人知道,假设是花边,那等到下一步电影上线,花边早已过期,根本没有作用了。这是相关性所无法定性问题的一个缺陷;
其次就是大众媒体早已分散为各种小众媒体,妄图通过大数据来制造全民热门其实是不在现实的,首先众口难调,其次大众获取不同影片的渠道增多成本降低,那么大数据分析所得出的影片结果就是四不像,而且即使成功了也是莫名的成功,难以无限复杂。影帝出演的烂片不胜枚举,内容为王的时代没有消失,如果消失了也只是不再那么直接了当罢了,因为有喜欢快消的小众,也有喜欢内容为王的小众。即使是快消的小众,过去的数据也无法完全捕捉到未来的消费趋势。
归根结底,大数据不过工具,而不是上帝。
低成本的大数据
《Big Data》热门书评
-
故作惊人语的《大数据时代》
681有用 43无用 阿九 2013-08-01
花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打...
-
未知的information,已知的technology-写给未来的思维范式
132有用 4无用 Miss power 2013-02-11
两年前,还是社会学专业的我最喜欢翘的课叫做”社会统计学”,与其听着传统死板的抽样调查与回归分析,我更喜欢和一个做数据挖掘的数学系同学四处溜达。“数据挖掘(Data mining)是什么?”她跟我举了一个最简单的例子:“沃尔玛通过对超市里人们购买行为的大量数据分析,发现男人们来买啤酒的时候,通常也会买...
-
大数据时代的金融投资
104有用 7无用 eric 2013-02-13
大数据时代的金融投资思维金融数量化投资由于其巨大收益,是大数据最早应用的领域,而其也符合大数据最重要的三大思维变革:1) 不是随机样本,而是全数据。 根据作者的定义, 大数据是指不用随机分析,而采用所有数据的方法。 主要原因有二,一是当前的技术能力让人类可以处理海量的数据, 二是随机样本无法获取某些...
-
一个理工狗眼中的大数据
71有用 3无用 丧心病狂刘老湿 2014-05-10
作为一个学计算机出身的理工狗,我一直忍到自己写完论文才回过头来看这本书。此时距这书出版,已经一年有余,大数据的概念已经甚嚣尘上,无人不知了。 维克托和肯尼思在...
-
你已经体验到的大数据时代
69有用 7无用 星腾 2012-12-19
你认为什么是大数据?如果没有仔细关注过这个领域,也许这是一个很难让人轻松回答的问题,而自己之前也没有那么清晰。但对于数据的直觉和一直以来的理解,告诉自己,如果你能掌握更多的数据,其中会有很多有意思的事情发生。因为我们每个人都有数据在不断产生,而自己也在追踪着数据,习惯性地使用Manictime来记录...
书名: Big Data
作者:
出版社: Eamon Dolan/Houghton Mifflin Harcourt
副标题: A Revolution That Will Transform How We Live, Work, and Think
出版年: 2013-3-5
页数: 256
定价: USD 27.00
装帧: Hardcover
ISBN: 9780544002692