三天的零碎时间把这本书读完了,内容本身其实很简单,也谈不上特别精彩,五分制的话我只能打三分。
我的理解,数据一生应该是包含了三个阶段:收集,分析,最后是预测。我们总能根据现有的数据(或者经验)预测未来(预测的正确与否是另外一回事),当数据的量级小的时候,能预见的未来可能是模糊的;但当数据积累到一定的程度,你就可能真的能预测未来了。
作者舍恩伯格列出了大数据时代的三个核心点:
不是随机样本,而是全体数据,即全数据模式,样本=总体。在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。
不是精确性,而是混杂性。研究数据如此之多,以至于我们不再热衷于追求精确度。
不是因果关系,而是相关关系。寻找因果关系是人类长久以来的习惯。即使确定因果关系很困难而且用途不大,人类还是习惯性地寻找缘由。相反,在大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系,这会给我们提供非常新颖且有价值的观点。相关关系也许不能准确地告知我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。在许多情况下,这种提醒的帮助已经足够大了。
相对于上边这些概念性的东西,书中的一些数据和举例可能更有趣一些:
Facebook这个创立时间不足十年的公司,每天更新的照片量超过1000万张,每天人们在网站上点击“喜欢”(like)按钮或者写评论次数大约有三十亿次,这就为facebook公司挖掘用户喜好提供了大量的数据线索。
亚马逊可以帮我们推荐想要的书,谷歌可以为关联网站排序,facebook知道我们的喜好,而linkedin可以猜出我们认识谁。
有趣的是,在2007年,只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余全部是数字数据。但在不久之前,情况却完全不是这样的。虽然1960年就有了“信息时代”和“数字村镇”的概念,但实际上,这些概念仍然是相当新颖的。甚至在2000年的时候,数字存储信息仍只占全球数据量的四分之一;当时,另外四分之三的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。
对冲基金通过剖析社交网络twitter上的数据信息来预测股市的表现;亚马逊和奈飞(netflix)根据用户在其网站上的类似查询来进行产品推荐;twitter,facebook,llinkedin通过用户的社交网络图来得知用户的喜好。
谷歌流感趋势预测并不是依赖于对随机样本的分析,而是分析了整个美国几十亿条互联网检索记录。分析整个数据库,而不是对一个样本进行分析,能够提高微观层面分析的准确性,甚至能够推测出某个特定城市的流感状况,而不只是一个州或是整个国家的情况。farecast的初始系统使用的样本包含12000个数据,所以取得了不错的预测结果。但是随着奥伦·埃齐奥尼不断添加更多的数据,预测的结果越来越准确。最终,farecast使用了每一条航线整整一年的价格数据来进行预测。埃齐奥尼说:“这只是一个暂时性的数据,随着你收集的数据越来越多,你的预测结果会越来越准确。”
内容本身很简单
《Big Data》热门书评
-
故作惊人语的《大数据时代》
681有用 43无用 阿九 2013-08-01
花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打...
-
未知的information,已知的technology-写给未来的思维范式
132有用 4无用 Miss power 2013-02-11
两年前,还是社会学专业的我最喜欢翘的课叫做”社会统计学”,与其听着传统死板的抽样调查与回归分析,我更喜欢和一个做数据挖掘的数学系同学四处溜达。“数据挖掘(Data mining)是什么?”她跟我举了一个最简单的例子:“沃尔玛通过对超市里人们购买行为的大量数据分析,发现男人们来买啤酒的时候,通常也会买...
-
大数据时代的金融投资
104有用 7无用 eric 2013-02-13
大数据时代的金融投资思维金融数量化投资由于其巨大收益,是大数据最早应用的领域,而其也符合大数据最重要的三大思维变革:1) 不是随机样本,而是全数据。 根据作者的定义, 大数据是指不用随机分析,而采用所有数据的方法。 主要原因有二,一是当前的技术能力让人类可以处理海量的数据, 二是随机样本无法获取某些...
-
一个理工狗眼中的大数据
71有用 3无用 丧心病狂刘老湿 2014-05-10
作为一个学计算机出身的理工狗,我一直忍到自己写完论文才回过头来看这本书。此时距这书出版,已经一年有余,大数据的概念已经甚嚣尘上,无人不知了。 维克托和肯尼思在...
-
你已经体验到的大数据时代
69有用 7无用 星腾 2012-12-19
你认为什么是大数据?如果没有仔细关注过这个领域,也许这是一个很难让人轻松回答的问题,而自己之前也没有那么清晰。但对于数据的直觉和一直以来的理解,告诉自己,如果你能掌握更多的数据,其中会有很多有意思的事情发生。因为我们每个人都有数据在不断产生,而自己也在追踪着数据,习惯性地使用Manictime来记录...
书名: Big Data
作者:
出版社: Eamon Dolan/Houghton Mifflin Harcourt
副标题: A Revolution That Will Transform How We Live, Work, and Think
出版年: 2013-3-5
页数: 256
定价: USD 27.00
装帧: Hardcover
ISBN: 9780544002692