花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。
买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打三分。这本书可以买来看看,写得比较完整全面,案例比较多,有一定的参考意义,写PPT吹牛用得上,但是有什么巨大的意义就谈不上了。很多观点不能同意。
一、主要观点上可以探讨的地方
作者提出了关于大数据的“掷地有声”的三个原则。这三个原则凡讲大数据必被提及,很多人奉为圭臬。但是我觉得每一点都值得探讨。这三点分别是:不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。
看完之后感觉都有点不是那么回事。
1.不是随机样本,而是全体数据
这个说得好像人类从来就不知道使用全体数据可以得到更全面的结论,而非要去煞费苦心发展出一套抽样技术一样。人类早就知道处理全量数据的好处,而之所以要进行抽样分析,原因不外乎两点:一是处理能力跟不上,二是数据收集能力跟不上。作者认为人类之前主要受限于数据的处理能力而不去处理全量数据,但在目前机器处理能力有了巨大的提升的时代,限制绝大多数应用的瓶颈不是计算能力而是数据采集能力(不要去提那些极少数需要超级计算机的场合,那个和多数人无关、和本书的商业主题也无关)。但是即便如此,抽样所要针对的很多应用场景是不太可能收集全量数据的情况。比如人口普查,无论计算机力量如何强大,当前很多数据还是要人工去收集,所以这个普查还是要用抽样的方式。有意思的是,作者用人口普查是抽样分析来说明非“全量”时代我们被迫采用了抽样,而最终也没法说我们是否已经可以用全量数据来做人口普查了。实际上至少在目前,对于人口普查,抽样还是必然的选择(嗯,你可以设想,以后人人都装一块芯片,你可以在你的PPT里讲给你的客户和老板听)。再比如我们统计里的经典问题:怎么估算一批零件的使用寿命?怎么去分析一批奶品里的三聚氰胺?以前我们不可能去做全量测试,因为这意味着这批零件就废了,这批奶也全部用于测试了,这样测出结果也没啥意义了(嗯,你也可以说:我我们去收集历史上所有此类零件的使用情况来进行分析吧.....嗯,加油吧,雄心勃勃的骚年)。现在呢,还是必须依赖抽样。
即便不提这些例子,仅从逻辑而言:收集、处理数据的行为本身也在不断产生着新的数据。我们又怎么证明这些数据不是你需要的“全量”的一部分呢?
作者的行文中,关于什么是“全量”,处于不断的摇摆之中。有时指“我们需要的所有数据”,有时指“我们能收集到的所有数据”。作者举了人口普查的例子,这个全量显然指前者。而在很多商业案例中,又显然指后者。我们有能力处理越来越多的、在以前不敢想象的大量数据,但是至少目前看,我们还没不可能说我们处理了“全量”。我们最多可以说我们能处理我们能搜集到的“全量”,但如果据此产生了我们已经没有遗漏数据了的感觉,认为所有数据尽在掌握了,那我认为是一种很可能导致错误的错觉。
2.不是精确性,而是混杂性
这个么,说得好像以前的人类在使用“抽样”数据时竟然都认为取到的数据是“精确”的一样。在使用抽样数据的时候,我们就知道要容忍一定的误差。我们甚至知道在就算取得了“全样”数据的时候,也可能因为有各种原因而导致的不精确,统计实践中对此有相当多的案例。人类从未奢望过我们通过数据分析取得的多数结论是精确的。我们从来都要在信息混杂的情况下做出大多数的决策。
3.不是因果关系,而是相关关系
这是很多人(包括作者)认为最有价值、最重大的发现,而实际上却也是最收到批评的一个观点。连译者周涛教授在序言里都表示看不下去了,他至于认为如果放弃对因果关系的分析,是人类的堕落。我不说这么高的哲学层面,只从逻辑和技术上讨论一下。
计算机能够提供给我们的结论(到目前为止以及在可见的未来),都是相关性。计算机从未提供过明确的因果关系给人类。是否因果关系,是人类在数据基础上,进行的人为判断。一直有相当多的应用,也是只考虑相关性,不考虑因果关系的:确定因果关系,是需要更大的精力、更多的投入的。所以只看相关性而不看因果性也不是什么新的结论(实际上已经是个很旧的结论了)。而这个相关性是不是可以作为决策的基础呢?这个一样离不开人的判断。有一个这样的故事:通过大量的数据分析,慈善组织得出结论:一个国家、地区的电视机的普及率与发达富裕程度很有关系(冰箱、洗衣机、空调、高跟鞋、牛仔裤,etc.,也会和发达程度有这样的相关性),于是他们就向贫困国家赠送了很多电视,认为此举可以促进改过的经济发展。你可以鬼扯电视的普及与经济文化的密切相关,但是实际上最终发现更可能是经济发展导致了电视的普及,而不是反过来。所以,我们真的不需要因果分析吗?说得玩笑一点:这个世界真的不需要脑子了吗?
作者举了一个例子:谷歌分析搜索关键字来确定哪里可能发生了流行病。认为这就是利用了相关性而不是因果性。这是没有利用因果判断吗?现在在投入巨大的机器资源进行分析之前,分析师已经预计了得病的症状可能会导致人们去网上进行相关搜索(影响了搜索行为)。谷歌存储的用户上网信息肯定远远不止一个搜索关键字,分析师为何不开足马力把“全量”数据、各个指标都分析一遍呢?比如用户上网地点?上网时间?上网频率?上网语言?浏览器版本?客户端操作系统?etc...为何会像导弹一样精确地将机器资源投放到了关键字上呢?
总之,对于这些原则,作者为了显出新意,说得过于绝对。而排除掉绝对的成分后,这些观点也就不显得是创新了。作者把三个数据分析人员一直秉持的原则,当做全新的东西讲了出来。时代在变化,我们或许应该经常重新审视这些原则,来确认自己的思想是不是僵化了、是不是过时了。我赞同作者重新审视这些看法,但是我觉得没必要讲得这么极端。
二、细节论据上可以探讨的地方
除了三个大原则不足以令人完全信服,在一些细节上,作者的引证也不是很严谨。
如第51页,对于拼写检查的算法的优化。作者提到,通过输入大量的数据,4种常见语法检查算法的准确率提高了很多,以此说明大数据发挥了作用。这确实是个很有启发性的例子,可以去做更深入的分析和研究,但是.....仅仅4个例子,够得出很有力的结论吗?4个算法,作者没注意到这是一个非常小的样本吗?不能因为这是4个用了大数据的采样,就认为这是一个支持大数据的有力结论了吧。(顺便我很想问问他们:为什么不测试个几十上百的算法呢?是不是面对如此“大量”的计算,也只好折中选择了一个抽样的小样本呢?甚至连样本数量是否合格都不顾上了吗?)
三、这本书有什么用处?
对于这样的一本书,我不明白周涛教授在译序里为什么要建议大家(以后)每个版本都应该买一本。为什么要买?难道作者理清自己脑子的过程很值得我们关注吗?
译序里说:“作者渴求立言立说的野心”,但是我恐怕作者是达不到这个目标的。关于作者的简介为:“《大数据时代》是国外大数据系统研究的先河之作,本书作者维克托·迈尔·舍恩伯格被誉为‘大数据商业应用第一人’,....早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。”
总体感觉是作者有很多想法,见识过很多案例(这些案例都丰富地体现在书中了,也很有参考价值)。但并非是一个曾经和数据真正绞尽脑汁搏斗过的人(这是我瞎猜的,没有考证过他的经历。考据者请不要告诉他做过什么咨询案例,这离真正体会数据的折磨还很远。)。
第183页说道:“...执行官们信任自己的直觉,所以由着它做决定。但是,随着管理决策越来越受预测性分析和大数据分析的影响和控制,依靠直觉做决定的情况将会被彻底改变。..."真的会么?如果你面对某一家企业做咨询,那可以这样讲。一种新技术的采用很有可能大幅提升企业的战斗力,并超越竞争对手。但是作者是期望对行业立言的人,面对整个社会我们这样讲就不严谨了。引用一个例子:中国棋院的一次训练会后,总教头马晓春对隔天要去各自的母队参加围甲的棋手们说:祝大家周末取胜。棋手们笑了:我们只有一半的人能赢啊。同样,如果大家都采用了大数据技术,那么也总有企业要在竞争中落于下风。而既然我们实际上无法真正分析“全量”数据,那CEO们还是会有很大的决策空间,哪怕很多决策实际上“不科学”。最起码,他们需要决定将有限的企业资源投入到对什么样的大数据进行分析,并如何应用分析出来的结果。嗯....我认为,这多少还是要依赖一些直觉的。
那么大家是否应该看一下这本书呢?我的答案是应该看一看。既然大数据是当前的潮流、相关的研究/商务活动层出不穷,那么做IT工作、数据工作的人对于“最好的”专著无论如何都必须看一下。书中集中展示了很多案例,值得作为参考和启发思维。此外,为了作为谈资、为了在写大数据PPT时有所依据,大家也得看看这本书。根据场合不同,可以对里面的内容复制粘贴、理解重写。这些内容,我相信买一版也就够了。需要提醒PPT人员的是,演示前请想清楚如何回答可能被提及的质疑。如果你对这本书的观点都深信不疑,那么你将会遇到很多的质疑。
对于下载网络版本担心没有图的朋友,请不用担心丢失信息:除掉湛庐特别制作的一张本书思维导图的彩页。这本书没有图。是的,一张都没有。大数据,大概太大了,大到作者无法用任何图来阐明了。
故作惊人语的《大数据时代》
您对该书评有什么想说的?
对“故作惊人语的《大数据时代》”的回应
楼主这么个评判方法我也是醉了 全盘否定 从人到书 你这么个读法随便一本书给你都是浪费
关于你提到的三个核心思想 所谓样本等于全部 在作者给出的例子里体现的已经很明显,它指的是样本容量在我们需要的时间限度里比以往扩大了不止一个数量级,所谓全部作者从来也没说就说就是覆盖到全部每一个个体,你能写出这通批判却揪住一个字眼咬文嚼字,忽略掉背后真正的价值和含义,我为你的逻辑感到悲哀 这本书本来就带有预见性,作者半句话没说这是现状,只是技术问题难以解决,你自己也说芯片问题,以后难道就没有可能对于要研究的问题采集到全部个体的信息?
关于精确性和混乱的问题,作者说的很明白,很多时候不需要那么高的精确度,怎么到你那里就成了不要了呢?
关于相关性和因果性,译者也只是说要多思考,到你那里就变成看不下去了,要真看不下去了还推荐你每本都读?我们的知识体系本来就是建立在相关性的基础上,既然你这么推崇因果性,你来解释下到底为什么1+1等于2?这能解释得了?科学里有多少定理和公理是解释不了的?所谓因果性,有因才有果,那因的因在哪里?穷其因可能找得到?本身因果性的下面就是大量的相关性理论作为科学基础,为什么到你那里就变得一文不值了?你举的例子也是非常可笑,通过电视机来判断一国的现代化程度,可悲你读完了全书这么多大数据的知识,却举了这么一个浅显错误的例子来说明大数据的应用,一点也不理解大数据所谓巨量信息和算法师的意思到底是什么
全篇书评全篇批判,最后还来了一句值得一读,既然被你说的什么都不剩,我倒想我问问你从书里读到了什么?所谓辩证读书的意思是不要尽信书,而不是不要信书
国外的学术书籍清一色这样,依靠例子和推理堆砌,追求严谨而不是文学性,读起来生涩很正常,又不是读小说,麻烦不要因为觉得读的没那么爽就轻视书里蕴含的思想,否则真是读书无用,金玉良言也弃如木石
楼主驳斥书中三个原则的方法是“说得好像人类从来就不知道···”,书的作者并没有这样的意思,显然楼主没有做到中立理解和最大限度的宽容原则。这三个原则如果单从那三句话来看,是有很多可以批判的地方,就像你说的,他讲的太极端了,但是不要忘了作者对三个原则做出的那些的阐释。而且就凭这个给作者贴上“为了显出新意”的标签就太有主观色彩了吧。楼主为了批判而极端化了作者的原意,那我是否也可以说楼主“为显新意”了呢?总之也许是大家职业的不同,楼主是搞与这块的有点关系的,可以体会到我无法体会的一些东西。因此我对楼主此文的批判只是在上述方面。【就是批判此文哦,与人无关。而且批判是指我对于此文的独立思考后的看法,不带褒贬色彩】
对作者的观点大部分比较同意,除了第三点。书中的“相关关系”可以从逻辑学里的“归纳”来讲,“因果关系”可以从“演绎”来讲。归纳就是一组前提来支持结论为真,但不是百分百的支持。演绎就是一个结论可以百分百支持结论为真。我想作者的观点更多的是想告诉我们多用归纳的方式思考,而不是楼主理解的那样抛弃因果思维。
作者阐述大数据时代全景,不管是高屋建瓴,还是供ppt吹牛逼,应该都完成了提供大数据全景这么一个目的,给读者一个全新的视角,还是很成功的
作者其实在书都后边说了“当然在某些情况下,我们仍然需要精心策划的数据来做因果关系研究和控制实验,如测试药物的副作用或者设计关键的飞机部件。但是在日常情况下,知道“是什么”就已经足够了,不必非要弄清楚“为什么”。大数据的相关性将人们指向了比探讨因果关系更有前景的领域”。作者并没有绝对的摒弃对因果关系的追求。
和3D打印都是一个问题,一个技术的提升就扩展到无限大。逻辑上全部的数据就是不可能的,前提是所有数据都数字化,即使如此也只是定量分析。很多问题都需要定性分析,大数据只能是辅助。
《Big Data》热门书评
-
故作惊人语的《大数据时代》
681有用 43无用 阿九 2013-08-01
花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打...
-
未知的information,已知的technology-写给未来的思维范式
132有用 4无用 Miss power 2013-02-11
两年前,还是社会学专业的我最喜欢翘的课叫做”社会统计学”,与其听着传统死板的抽样调查与回归分析,我更喜欢和一个做数据挖掘的数学系同学四处溜达。“数据挖掘(Data mining)是什么?”她跟我举了一个最简单的例子:“沃尔玛通过对超市里人们购买行为的大量数据分析,发现男人们来买啤酒的时候,通常也会买...
-
大数据时代的金融投资
104有用 7无用 eric 2013-02-13
大数据时代的金融投资思维金融数量化投资由于其巨大收益,是大数据最早应用的领域,而其也符合大数据最重要的三大思维变革:1) 不是随机样本,而是全数据。 根据作者的定义, 大数据是指不用随机分析,而采用所有数据的方法。 主要原因有二,一是当前的技术能力让人类可以处理海量的数据, 二是随机样本无法获取某些...
-
一个理工狗眼中的大数据
71有用 3无用 丧心病狂刘老湿 2014-05-10
作为一个学计算机出身的理工狗,我一直忍到自己写完论文才回过头来看这本书。此时距这书出版,已经一年有余,大数据的概念已经甚嚣尘上,无人不知了。 维克托和肯尼思在...
-
你已经体验到的大数据时代
69有用 7无用 星腾 2012-12-19
你认为什么是大数据?如果没有仔细关注过这个领域,也许这是一个很难让人轻松回答的问题,而自己之前也没有那么清晰。但对于数据的直觉和一直以来的理解,告诉自己,如果你能掌握更多的数据,其中会有很多有意思的事情发生。因为我们每个人都有数据在不断产生,而自己也在追踪着数据,习惯性地使用Manictime来记录...
书名: Big Data
作者:
出版社: Eamon Dolan/Houghton Mifflin Harcourt
副标题: A Revolution That Will Transform How We Live, Work, and Think
出版年: 2013-3-5
页数: 256
定价: USD 27.00
装帧: Hardcover
ISBN: 9780544002692