书中提出了大数据带来的三个新思维
一,使用全部数据而不是像传统统计方法那样先随机采样。既然有足够的存储和计算能力为什么不使用全部数据呢?使用全部数据能避免采样引入的bias,得到的结论更可信。不带bias的采样算法是很难设计的,研究者往往在无意之间就引入了采样的bias。这一新思维显然是计算机科学快速发展带来的存储和计算成本大幅降低的直接结果。
二,不追求数据的精确性与完整性。这一点与其说是大数据引发的新思维,不如说是大数据带来的人们不得不接受的结果。要保证数据的精确性,势必要付出人力成本或者其他成本。在大数据的情况下,这些成本过于巨大,除非减小数据规模,但是大数据变成小数据带来的是信息的损失。书中提出一个证据是,大数据的简单算法比小数据的复杂算法更样有效。这应该是数据的数量弥补了不精确带来的噪声。这也应该是互联网巨头Google耗费巨大的资源和人力在鱼龙混杂的整个互联网上去粗取精而不是仅仅关注一些高质量网站的原因之一。大数据的不完整性也催生了传统数据库的革命,Google发明了bigtable来存储非结构化和不完整的大数据。
三,不再追求因果关系,转而追求相关关系。对于商业领域里的公司来说,利用大数据发现的相关性来更好的服务用户提高销售额等就够了,没有必要去研究相关性背后的因果关系。从技术角度举例来说,假设从一份大数据里挖掘出成千上万条association rules来,公司和个人是不可能有资源去探求它们背后的因果关系的。
作者还预测了未来的一些趋势。
一切事物数据化的时代。物联网是一个极端的例子。量化一切的部分原因是,一份大数据的价值往往需要人们从不同角度不同目的出发进行挖掘来体现,在采集数据之前往往并不能预见所有的价值甚至不能预见任何价值,那么最好的办法就是在资源允许的情况下先全部记录下来存下来再说。
大数据时代的早期,思维和技术是最有价值的。之后,拥有大数据的公司会拥有优势。以后,数据将会像其他商品一样频繁买卖。
大数据程序员的崛起。书中所说的其实是像内部会计人员和外部审计人员一样的职业角色。他们对大数据的使用,利用大数据进行预测的系统和算法进行监督“审计”,保证他们的公平公正。这一角色将会是计算机科学,数学和统计学的复合型人才。一些公司已经有了data scientist这样的职位,不过跟书中说的大数据程序员不是一个概念。我觉得以后基本的数据挖掘和机器学习技术将会成为程序员的基本技能,就像C/C++一样。
作者还表达了对大数据的一些担忧,主要是隐私保护。在大数据的前提下,匿名化就失去作用了。比如,人们仍然能从一份海量的匿名化的google搜索检索词来推断匿名化之前的真实用户。
大数据时代的新思维和新趋势
《Big Data》热门书评
-
故作惊人语的《大数据时代》
681有用 43无用 阿九 2013-08-01
花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打...
-
未知的information,已知的technology-写给未来的思维范式
132有用 4无用 Miss power 2013-02-11
两年前,还是社会学专业的我最喜欢翘的课叫做”社会统计学”,与其听着传统死板的抽样调查与回归分析,我更喜欢和一个做数据挖掘的数学系同学四处溜达。“数据挖掘(Data mining)是什么?”她跟我举了一个最简单的例子:“沃尔玛通过对超市里人们购买行为的大量数据分析,发现男人们来买啤酒的时候,通常也会买...
-
大数据时代的金融投资
104有用 7无用 eric 2013-02-13
大数据时代的金融投资思维金融数量化投资由于其巨大收益,是大数据最早应用的领域,而其也符合大数据最重要的三大思维变革:1) 不是随机样本,而是全数据。 根据作者的定义, 大数据是指不用随机分析,而采用所有数据的方法。 主要原因有二,一是当前的技术能力让人类可以处理海量的数据, 二是随机样本无法获取某些...
-
一个理工狗眼中的大数据
71有用 3无用 丧心病狂刘老湿 2014-05-10
作为一个学计算机出身的理工狗,我一直忍到自己写完论文才回过头来看这本书。此时距这书出版,已经一年有余,大数据的概念已经甚嚣尘上,无人不知了。 维克托和肯尼思在...
-
你已经体验到的大数据时代
69有用 7无用 星腾 2012-12-19
你认为什么是大数据?如果没有仔细关注过这个领域,也许这是一个很难让人轻松回答的问题,而自己之前也没有那么清晰。但对于数据的直觉和一直以来的理解,告诉自己,如果你能掌握更多的数据,其中会有很多有意思的事情发生。因为我们每个人都有数据在不断产生,而自己也在追踪着数据,习惯性地使用Manictime来记录...
书名: Big Data
作者:
出版社: Eamon Dolan/Houghton Mifflin Harcourt
副标题: A Revolution That Will Transform How We Live, Work, and Think
出版年: 2013-3-5
页数: 256
定价: USD 27.00
装帧: Hardcover
ISBN: 9780544002692