什么是大数据
先说一个故事,同任何职业运动一样,每个领域的职业联赛联盟都有“豪门”,就像以前的皇马巴萨之余足球一样 ,美国职业棒球大联盟不仅有豪门,还有很多个寒门,且豪门和寒门之间的薪资差异越来越大,即所谓“不公平的 竞争”,导致的后果是优秀的棒球手频繁被豪门挖走,豪门越来越强,弱队水准越来越差,而弱队应对策略只能是 请一些棒球老专家组成“球探”来去未入大学校园的学生那里选择后备队员以期待他们成长为队中的中流砥柱,当 然,成功的概率是很低的。
2002年的纽约洋基队的薪资高达1亿以上,然而奥克兰运动家队总薪资不足前者的三分之一,巨大的薪水差距导致明 星球员频繁被其他能支付得起更高工资的球队挖走,像以往的很多年一样,一堆球探在会议桌上争论该选谁而争吵 不休,“@#¥身材魁梧 力量很大 是个好材料”“不行吧,他女朋友很丑,女朋友很丑说明他没有自信”。
球队经理比利比恩面对毫无意义的讨论不感兴趣,在和别的球队经理讨价还价的时候他发现了一个小胖子,球队经 理对小胖子对球队的人员安排言听计从,比利单独约小胖子出来道出真相,以往球队选择队员的时候,在乎的球员 的名气和身体状态,或者是球探们一厢情愿的“直觉”,而这些参数根本无法直观的评价和预测球员未来的表现以 及对球队非常重要的得分能力,小胖子依据大量的历史数据对球员对全方位的评估,包括打击率、上垒率等,安排 队员在最合适的位置发挥最大的能量。
对现有游戏规则持怀疑态度的比利果断将耶鲁来的小胖子挖麾下,成为了更改行业规则的第一人,运动家队在接下 来的比赛中也创下联盟百年历史上连胜20场的空前纪录。这个故事后来改编成了电影《点球成金》小胖子对球员的 评估以及预测就是大数据处理,即用统计学的知识来分析现有所有数据,提取出合适的数学模型用于对未来行为的 预测,“棒球统计学”最早由统计学家比尔詹姆斯创立,但是但是当时棒球届没人理他,若干年后比利比恩和耶鲁 小子才用实践证明了其功效。
大数据为什么现在出现
大数据这个概念就像以前的云计算概念一样,2012年被炒的火热,其实和“云”一样,其实是没有什么特定的技术 对其进行支撑,比如云存储,N年前腾讯QQ就有了网盘功能,只不过那时候叫网络硬盘且空间小的可怜,传输速度慢 的要命,所以云存储这个概念没有被提出来,随着存储设备的廉价和网络传输速度的提高,相应的存储和计算通过 网络而不是本地成为现实,云技术才借由发力发展迅速。
同样的,大数据环节包括存储、计算、分析等流程,在电脑性能低下的以前,同时兼顾可用性和成本,不可能对所 有区间所有领域的数据进行采样,就像以前只有生病住院或者是体检的人才能够知道自己的脉搏跳动频率,而现在 只要手里拿着一个iphone手机安装合适的app就能够对自己24小时的身体状况了如指掌。数据存储成本的低廉和计算 性能的提高为大数据时代的到来开辟了道路。
大数据的特点
样本=总体
大数据要求采样所有数据,而非少数样本。这样在大数据来临之后,起码所有的心理学教材都可以全新改版了,因为 所有的心理学实验都不需要研究者们冥思苦想设置参数、选择少数志愿者充当小白鼠做一个长周期的实验了,因为所 有的数据直接可以获取,而非创造条件重新获取。这不仅可以消除采样样本不均而带来的误差,另一方面,取得了所 有数据之后可以对数据进行二次三次再利用,比如研究者在做一个实验要验证“中国人的鼻子大还是美国人的鼻子大?
研究者不可能只选一个中国人或者美国人来对比吧,比较靠谱的方法是排除地域年龄性别的差异,在不同的省份不同 的年龄段不同的性别都选择出来人,中美都是这样选取,然后逐一对照对比,最后得出结论。后面这个研究者要闲的 没事儿干想知道哪个国家的头大怎么办,老办法再圈定一堆人逐一对照。在大数据时代这些东西就可以免了,因为在 那个时代,世界上所有人的数据都摆在那里(商用或者公开),而对哪些数据处理分析就是研究者要干的事情了。对 了,比较完头还可以比较屁股谁大谁小呢。
不要精确性
小数据时代,数据样本本来就少的可怜,如果要是有几个数据是错误的或者误差较大的那最终结果就会产生更大的偏移 ,而在大数据时代,少量数据的错误和误差相对于海量数据就显得微不足道了,或者一些误差能够进行相互抵消而对总 体的趋势没有影响。
不要因果 只求相关
就像球探去判断一个球员是否有玩棒球的天赋非要找到一些自以为正确的逻辑去说服自己和别人一样,现今科学的逻辑 是你能否把一件事情的内在逻辑讲清楚,如果事实和道理是假的,那就伪科学去了。而大数据时代,只要构建的模型能 够和历史数据相吻合且预测未来,那么这个模型就有理由一直用下去,并不需要对其进行解释,即只求相关性,不要因 果关系。小胖子不需要对解释为什么一个球员的上垒率高,放在一垒的位置上球队的赢球概率就大,因为过去几十年的 数据表明,同时具备这若干个条件的时候,同时也伴随着球队赢球的机会多。通过大数据的相关性,网上书店可以给买 了一种书的读者推荐不同的书籍沃尔玛可以了解飓风前应该在店门口准备哪种口味的蛋挞(草莓味),至于原因嘛,让 有闲情逸致的人去解释吧。
大数据不能干的事儿
创新
大数据只能根据有固定规律和周期的事件,而对创新艺术等领域则帮不上什么忙。比如在汽车出现之前,如果福特用大 数据来调研预测人们对交通工具的想法,那么的出来的答案一定是“跑的更快的马”,按照这条思路一直走下去,人类 还真就没有小汽车开了。
准确预测
大数据的预测虽然准确度很高,给出的也是一个概率值(比如棒球统计学给出的准确率是70%以上),这也是运动家队 始终也没有获得冠军的原因,预测可以覆盖很多场比赛,然后对于单一场次的比赛,历史数据和预测没有任何作用,特 别在重要的比赛和场合,人的心里因素发挥了更大的作用,而人本身,是最难预测的。
大数据时代的矛盾
科学是不是可以重新定义了
就像上面提到的,只有经过理论分析,依据事实而进行的判断才可以称之为科学。那么不探求因果关系大数据算不算科 学呢,如果算,那么在未来大数据高速发展以至于对人的身体接触不同的中医疗法都能够准确的测试,而得到结论是中 医的好多对人身体的判断都有了大数据对其进行支撑,在科学家眼中,中医的不能自解释,是不是能够因为大数据时代 的到来而变成举世公认的科学?
那么还有星座、MBTI,通过通过全世界人的采样,对其各种行为都进行的毫无偏见的采样测试分析之后,是不是也有机 会变成科学呢?
人类有没有自由意志
电影《少数派报告》说未来世界里,有一个专门罪犯预测的部门,能够在谋杀案发生之前对其进行预测,然后警察去制 至犯罪行为的发生,当然电影中并不是通过大数据来对人进行预测的,而是通过三个超能力的人。同大数据时代到来的 矛盾一样,如果人的行为也是可以预测的,那么人是否还有独立的自由意志?人是否能够因为想去做一件事而受到惩罚 或者奖励。
最后
大数据和任何其他技术一样,本身不是因为技术取得了突破而摇身一变,而是在商业上被广泛接受和应用才被广为人知 ,说对人类的矛盾和挑战那些东西都是科技写手们想的事儿了,大数据倒是真的能够催生出很多新兴职业,就像有经济 学背景耶鲁小胖子的存在,那几十号的球探就可以下岗了一样。未来在经济金融等领域,计算机/数学/统计经济背景的 人会在里面如鱼得水。
我又相信星座了
对“我又相信星座了”的回应
《Big Data》热门书评
-
故作惊人语的《大数据时代》
681有用 43无用 阿九 2013-08-01
花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打...
-
未知的information,已知的technology-写给未来的思维范式
132有用 4无用 Miss power 2013-02-11
两年前,还是社会学专业的我最喜欢翘的课叫做”社会统计学”,与其听着传统死板的抽样调查与回归分析,我更喜欢和一个做数据挖掘的数学系同学四处溜达。“数据挖掘(Data mining)是什么?”她跟我举了一个最简单的例子:“沃尔玛通过对超市里人们购买行为的大量数据分析,发现男人们来买啤酒的时候,通常也会买...
-
大数据时代的金融投资
104有用 7无用 eric 2013-02-13
大数据时代的金融投资思维金融数量化投资由于其巨大收益,是大数据最早应用的领域,而其也符合大数据最重要的三大思维变革:1) 不是随机样本,而是全数据。 根据作者的定义, 大数据是指不用随机分析,而采用所有数据的方法。 主要原因有二,一是当前的技术能力让人类可以处理海量的数据, 二是随机样本无法获取某些...
-
一个理工狗眼中的大数据
71有用 3无用 丧心病狂刘老湿 2014-05-10
作为一个学计算机出身的理工狗,我一直忍到自己写完论文才回过头来看这本书。此时距这书出版,已经一年有余,大数据的概念已经甚嚣尘上,无人不知了。 维克托和肯尼思在...
-
你已经体验到的大数据时代
69有用 7无用 星腾 2012-12-19
你认为什么是大数据?如果没有仔细关注过这个领域,也许这是一个很难让人轻松回答的问题,而自己之前也没有那么清晰。但对于数据的直觉和一直以来的理解,告诉自己,如果你能掌握更多的数据,其中会有很多有意思的事情发生。因为我们每个人都有数据在不断产生,而自己也在追踪着数据,习惯性地使用Manictime来记录...
书名: Big Data
作者:
出版社: Eamon Dolan/Houghton Mifflin Harcourt
副标题: A Revolution That Will Transform How We Live, Work, and Think
出版年: 2013-3-5
页数: 256
定价: USD 27.00
装帧: Hardcover
ISBN: 9780544002692