抱着对大数据的兴趣,这个月利用闲暇时间看了维克托的《大数据时代》这本畅销书。
本书着重介绍了大数据时代的3个特征要全体不要抽样,要效率不要精确,要相关不要因果
1在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样
2研究数据如此之多,以至于我们不再热衷于追求精确度
3我们不再热衷于寻找因果关系
在介绍完大数据时代3个特征后,维克托向我们展示了很多我们感觉无法量化的东西都可以进行量化。
然后他介绍了大数据如何改变了我们的生活,并在最后指出了大数据时代的缺点。
这本书大爱也就记住框架吹吹牛就行了。。
下面贴出知乎上的大牛所写的东西,我也就不复制了
http://www.zhihu.com/question/20666694
关于大数据,书上我提的问题:
1我们经典统计学书上的题目,如何检测一批刚出厂的灯泡的寿命?
传统的方法是抽样,假定分布,估计参数
大数据的特征是要全体不要抽样,灯泡全部在厂里实验寿命吗?
2书上第三章中“关联物,预测的关键”里提出相关关系没有绝对,只有可能?这是啥意思?
3书上第五章中“数据创新4”里提出亚马逊决定只使用仍有生产价值的数据,这就需要不断的更新数据库并淘汰无用信息。
之前不是说在大数据时代可以为了数据的量可以牺牲数据的精确性吗?
谢飞月 大数据时代 阅读报告
或许许多人都读过这一本书,也被这一本书中描绘的大数据主导一切的力量所感染。但单纯的肯定,显然是缺了些什么。我只想根据自己的见闻,将书中的另一个部分补全。
数据真的能主导一切么?或许目前来说,是可以的,但从长远看,又似乎存在着许多问题。比如,夏天,游泳的人很多,吃冰糕的人也很多,到了冬天,吃冰糕的奇葩很少,冬泳的奇葩也很少,从数据上看,去吃冰糕和游泳的相关性是很高的——可这能说明吃冰糕和游泳具有什么关系呢?
所以,归根结底,大数据只能挖掘出“相关性”,而非“因果性”而这一相关性又能持续多长时间呢?会不会,到了冬天,有一家奇葩餐馆,推出个什么“油炸冰淇凌”之类的,因而大幅提升冰糕的销量呢?又或者,会不会有一家室内游泳馆,冬天给水池加温,以保证大家能够在里面像夏天一样游泳呢?都很难说,因而,这相关性,只是脆弱的相关性,与因果无关,玩玩可以,但当不得真。就像Google的算法,哪怕测试了1.5亿个数学模型,哪怕在前期估算得很准,到了后面,也经常错估:因为相关性改变了。
Google的假设是,得病的人会主动搜索一些关于他得的病的信息。而问题在于,当禽流感被广为人知了之后,许多没病的人也会出于好奇而搜索那些与禽流感有关的条目。这时候,哪怕你前期数据挖掘做得再完美,又能如何?这个世界,总是比我们想象中的,发展得快得多。或许真的,用一句话可以描述大数据时代的特点:
认真,你就输了。
其实,书上的最后一段说得很对:大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。若是身在大数据产业中,当然要宣扬大数据的好,但,跳出大数据的产业,当我们准备理性而有全面的看待大数据的时候,我们根本不需要了解那么多,只要记住这句话,就够了。
下面个人观点回复:由于大数据时代,我们要处理的数据量,数据的维度都相当的庞大,我们已经没有时间去思考因果关系了而仅仅寻求联系。因果关系得出实在是太困难了,并且很多情况下在双盲的情况下实现实验组和对照组的对比。
再回答吃雪糕的例子:我个人感觉就是:你若发现游泳馆里游泳的人突然变多,那说不定现在卖雪糕就是不错的。但是我的并没有推出吃雪糕的人多的原因是夏天,而只是仅仅用的联系的观点。
书上说道:2002年诺贝尔经济学奖得主丹尼尔•卡尼曼指出,平时生活中,由于惰性,我们很少慢条斯理地思考问题。所以快速思维模式就占据了上风。因此,我们会经常臆想出一些因果关系,最终导致了对世界的错误理解。
虽然夏天吃雪糕的人多是我们直觉上的觉得,真正要说明因为夏天导致吃雪糕的人多还是比较麻烦的。就从你选的样本随机性就可以批判,说不定某个地方冬天吃雪糕的人就比夏天多,还有从另一个角度来说,说不定存在着2种基因,显性表示为爱在夏天吃雪糕,隐性为爱在冬天吃雪糕。导致夏天吃雪糕的人多是仅仅因为这个基因的问题而不是夏天天热啊,他们本来就是2类人
知乎上的经典回答
回答1:
花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。
买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打三分。这本书可以买来看看,写得比较完整全面,案例比较多,有一定的参考意义,写PPT吹牛用得上,但是有什么巨大的意义就谈不上了。很多观点不能同意。
一、主要观点上可以探讨的地方
作者提出了关于大数据的“掷地有声”的三个原则。这三个原则凡讲大数据必被提及,很多人奉为圭臬。但是我觉得每一点都值得探讨。这三点分别是:不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。
看完之后感觉都有点不是那么回事。
1.不是随机样本,而是全体数据
这个说得好像人类从来就不知道使用全体数据可以得到更全面的结论,而非要去煞费苦心发展出一套抽样技术一样。人类早就知道处理全量数据的好处,而之所以要进行抽样分析,原因不外乎两点:一是处理能力跟不上,二是数据收集能力跟不上。作者认为人类之前主要受限于数据的处理能力而不去处理全量数据,但在目前机器处理能力有了巨大的提升的时代,限制绝大多数应用的瓶颈不是计算能力而是数据采集能力(不要去提那些极少数需要超级计算机的场合,那个和多数人无关、和本书的商业主题也无关)。但是即便如此,抽样所要针对的很多应用场景是不太可能收集全量数据的情况。比如人口普查,无论计算机力量如何强大,当前很多数据还是要人工去收集,所以这个普查还是要用抽样的方式。有意思的是,作者用人口普查是抽样分析来说明非“全量”时代我们被迫采用了抽样,而最终也没法说我们是否已经可以用全量数据来做人口普查了。实际上至少在目前,对于人口普查,抽样还是必然的选择(嗯,你可以设想,以后人人都装一块芯片,你可以在你的PPT里讲给你的客户和老板听)。再比如我们统计里的经典问题:怎么估算一批零件的使用寿命?怎么去分析一批奶品里的三聚氰胺?以前我们不可能去做全量测试,因为这意味着这批零件就废了,这批奶也全部用于测试了,这样测出结果也没啥意义了(嗯,你也可以说:我我们去收集历史上所有此类零件的使用情况来进行分析吧.....嗯,加油吧,雄心勃勃的骚年)。现在 ?我们还是必须依赖抽样,是必须。
即便不提这些例子,仅从逻辑而言:收集、处理数据的行为本身也在不断产生着新的数据。我们又怎么证明这些数据不是你需要的“全量”的一部分呢?
作者的行文中,关于什么是“全量”,处于不断的摇摆之中。有时指“我们需要的所有数据”,有时指“我们能收集到的所有数据”。作者举了人口普查的例子,这个全量显然指前者。而在很多商业案例中,又显然指后者。我们有能力处理越来越多的、在以前不敢想象的大量数据,但是至少目前看,我们还没可能说我们处理了“全量”。我们最多可以说我们能处理我们能搜集到的“全量”,但如果据此产生了我们已经没有遗漏数据了的感觉,认为所有数据尽在掌握了,那我认为是一种很可能导致错误的错觉。
2.不是精确性,而是混杂性
这个么,说得好像以前的人类在使用“抽样”数据时竟然都认为取到的数据是“精确”的一样。在使用抽样数据的时候,我们就知道要容忍一定的误差。我们甚至知道在就算取得了“全样”数据的时候,也可能因为有各种原因而导致的不精确,统计实践中对此有相当多的案例。人类从未奢望过我们通过数据分析取得的多数结论是精确的。我们从来都要在信息混杂的情况下做出大多数的决策。
3.不是因果关系,而是相关关系
这是很多人(包括作者)认为最有价值、最重大的发现,而实际上却也是最收到批评的一个观点。连译者周涛教授在序言里都表示看不下去了,他至于认为如果放弃对因果关系的分析,是人类的堕落。我不说这么高的哲学层面,只从逻辑和技术上讨论一下。
计算机能够提供给我们的结论(到目前为止以及在可见的未来),都是相关性。计算机从未提供过明确的因果关系给人类。是否因果关系,是人类在数据基础上,进行的人为判断。一直有相当多的应用,也是只考虑相关性,不考虑因果关系的:确定因果关系,是需要更大的精力、更多的投入的。所以只看相关性而不看因果性也不是什么新的结论(实际上已经是个很旧的结论了)。而这个相关性是不是可以作为决策的基础呢?这个一样离不开人的判断。有一个这样的故事:通过大量的数据分析,慈善组织得出结论:一个国家、地区的电视机的普及率与发达富裕程度很有关系(冰箱、洗衣机、空调、高跟鞋、牛仔裤,etc.,也会和发达程度有这样的相关性),于是他们就向贫困国家赠送了很多电视,认为此举可以促进该国的经济发展。你可以鬼扯电视的普及与经济文化的密切相关,但是实际上最终发现更可能是经济发展导致了电视的普及,而不是反过来。所以,我们真的不需要因果分析吗?说得玩笑一点:这个世界真的不需要脑子了吗?
作者举了一个例子:谷歌分析搜索关键字来确定哪里可能发生了流行病。认为这就是利用了相关性而不是因果性。这是没有利用因果判断吗?现在在投入巨大的机器资源进行分析之前,分析师已经预计了得病的症状可能会导致人们去网上进行相关搜索(影响了搜索行为)。谷歌存储的用户上网信息肯定远远不止一个搜索关键字,分析师为何不开足马力把“全量”数据、各个指标都分析一遍呢?比如用户上网地点?上网时间?上网频率?上网语言?浏览器版本?客户端操作系统?etc...为何会像导弹一样精确地将机器资源投放到了关键字上呢?
总之,对于这些原则,作者为了显出新意,说得过于绝对。而排除掉绝对的成分后,这些观点也就不显得是创新了。作者把三个数据分析人员一直秉持的原则,当做全新的东西讲了出来。时代在变化,我们或许应该经常重新审视这些原则,来确认自己的思想是不是僵化了、是不是过时了。我赞同作者重新审视这些看法,但是我觉得没必要讲得这么极端。
二、细节论据上可以探讨的地方
除了三个大原则不足以令人完全信服,在一些细节上,作者的引证也不是很严谨。
如第51页,对于拼写检查的算法的优化。作者提到,通过输入大量的数据,4种常见语法检查算法的准确率提高了很多,以此说明大数据发挥了作用。这确实是个很有启发性的例子,可以去做更深入的分析和研究,但是.....仅仅4个例子,够得出很有力的结论吗?4个算法,作者没注意到这是一个非常小的样本吗?不能因为这是4个用了大数据的采样,就认为这是一个支持大数据的有力结论了吧。(顺便我很想问问他们:为什么不测试个几十上百的算法呢?是不是面对如此“大量”的计算,也只好折中选择了一个抽样的小样本呢?甚至连样本数量是否合格都顾不上了吗?)
三、这本书有什么用处?
对于这样的一本书,我不明白周涛教授在译序里为什么要建议大家(以后)每个版本都应该买一本。为什么要买?难道作者理清自己脑子的过程很值得我们关注吗?
译序里说:“作者渴求立言立说的野心”,但是我恐怕作者是达不到这个目标的。关于作者的简介为:“《大数据时代》是国外大数据系统研究的先河之作,本书作者维克托·迈尔·舍恩伯格被誉为‘大数据商业应用第一人’,....早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。”
总体感觉是作者有很多想法,见识过很多案例(这些案例都丰富地体现在书中了,也很有参考价值)。但并非是一个曾经和数据真正绞尽脑汁搏斗过的人(这是我瞎猜的,没有考证过他的经历。考据者请不要告诉他做过什么咨询案例,这离真正体会数据的折磨还很远。)。
第183页说道:“...执行官们信任自己的直觉,所以由着它做决定。但是,随着管理决策越来越受预测性分析和大数据分析的影响和控制,依靠直觉做决定的情况将会被彻底改变。..."真的会么?如果你面对某一家企业做咨询,那可以这样讲。一种新技术的采用很有可能大幅提升企业的战斗力,并超越竞争对手。但是作者是期望对行业立言的人,面对整个社会我们这样讲就不严谨了。引用一个例子:中国棋院的一次训练会后,总教头马晓春对隔天要去各自的母队参加围甲的棋手们说:祝大家周末取胜。棋手们笑了:我们只有一半的人能赢啊。同样,如果大家都采用了大数据技术,那么也总有企业要在竞争中落于下风。而既然我们实际上无法真正分析“全量”数据,那CEO们还是会有很大的决策空间,哪怕很多决策实际上“不科学”。最起码,他们需要决定将有限的企业资源投入到对什么样的大数据进行分析,并如何应用分析出来的结果。嗯....我认为,这多少还是要依赖一些直觉的。
那么大家是否应该看一下这本书呢?我的答案是应该看一看。既然大数据是当前的潮流、相关的研究/商务活动层出不穷,那么做IT工作、数据工作的人对于“最好的”专著无论如何都必须看一下。书中集中展示了很多案例,值得作为参考和启发思维。此外,为了作为谈资、为了在写大数据PPT时有所依据,大家也得看看这本书。根据场合不同,可以对里面的内容复制粘贴、理解重写。这些内容,我相信买一版也就够了。需要提醒PPT人员的是,演示前请想清楚如何回答可能被提及的质疑。如果你对这本书的观点都深信不疑,那么你将会遇到很多的质疑。
对于下载网络版本担心没有图的朋友,请不用担心丢失信息:除掉湛庐特别制作的一张本书思维导图的彩页。这本书没有图。是的,一张都没有。大数据,大概太大了,大到作者无法用任何图来阐明了。
回答2:
维克托·尔耶·舍恩伯格在《大数据时代:生活、工作与思维的大变革》中最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。
知名IT研究机构Gartner以它对专业IT市场的“魔力象限图”发布作为一种评价方式,在其二维矩阵里,横轴是前瞻的完整性,纵轴是执行力,如果用此分析方法来评价《大数据时代》这本书,它大概位于右下角靠近纵轴中间点的位置。
2012年,笔者看过的3本有关大数据的中文书,它们分别是《证析》、《大数据》和维克托·迈尔·舍恩伯格的《大数据时代》。与其他两本相比,舍恩伯格这本书的特点重在“Impact Analysis”的前瞻分析,在大数据时代的思维变迁方面有启发价值。也说是说,此书对于企业高管和CIO的价值更大,它基本没有太多讨论技术,而偏重于观念转移(Paradigm Shift)。
简单说来,这本书的价值可以用两个“三”、一个“一”来概括:第1个“三”是3个关于大数据的思维变换,重在大数据变革时代的价值与观念变化;第2个“三”是关于大数据影响商业变革的3个要素:即数据、技术与创新思维之间的互动;一个“一”是关于大数据泛化下的治理与隐私。
关于大数据本身的价值已无需赘述,此处重点讨论关于大数据的3个思维变化:1.不是随机样本,而是全体数据;2.不是精确性,而是混杂性,尤其是大数据的简单算法比小数据的复杂算法有效;3.不是因果关系,而是相互关系。
《大数据时代》一书提醒读者,大数据是全数据,至少维度要全,这带来了观察和分析事物的角度变化,尤其相对于传统IT系统数据,大数据强调了数据的外部性和实时性,这两个特性也使得“证析”提到的基于事实(Evidence)的分析成为可能,不过此书忽略了外部数据与企业内部数据结合的分析价值。比如,对于政府来说,分析大范围的公共卫生事件、传染病可以更快地利用大数据(比如微博)发现目前的情况,但具体要调度资源,还是需要结合“小数据”的精确决策。
第2点的核心观念关于大数据的简单算法来自谷歌的洞见,也来自于Hadoop(一个分布式系统基础架构,由Apache基金会开发)这类算法的核心理念。大数据的简单算法是一种统计学的逻辑,这个如同热力学的分析模式,热力学并不关心具体的分子运动,而是关心温度、体积、压强之间的宏观联系,关于这种理念的内在理解,建议读者从吴军的《数学之美》一书中获得,只有真正理解了大数据基于统计学的思维方式,才能理解它的独特优势和局限。这种方式可以解决以往技术无法解决的大范围、实时性和并行处理等问题,并带来新的洞见,它用概率说话,并不是和人就细节较真。这个来自互联网公司的观念是,希望先解决80%的趋势问题,然后慢慢精细化。
第3点,大数据关注“是什么”,而不是“为什么”,经常网购的人会更容易体会。很多电商网站的推荐引擎具备这种能力,它能够在顾客买书的时候,推荐顾客刚好喜欢的其他书籍,顾客可能不知道“为什么”,其实网站也不在乎“为什么”,(“为什么”可以由学术专家慢慢分析)。但是网站根据成千上万甚至上亿人的统计学分析,就可以发现“关联物”,或者说大数据更擅长通过统计分析人类所不能感知的关联,并建议人采取行动。这个革命式的思维非同小可,以前“啤酒+尿布”的数据仓库故事需要数据整理、清洗转换和专家建模挖掘,其采购行为的关联性可能被Hadoop等算法轻易的发现。上述方式由于分析门槛低,已经成为一种常见的工具,并衍生大数据的云服务的商业模式,成为企业可以购买的“分析即服务”(Analytics as a Services),国内阿里系正致力于这种模式的建立。
第2部分关于大数据商业模式方面,最有价值的是关于大数据商业生态的分析,除了大家熟知的数据、技术,作者认为还有第3种基于思维的大数据公司,包括数据中间商等等,这对于国内过于关注技术本身的趋势是个很好的提醒。一个有趣的话题是,作者认为基于统计的数据科学家会逐步取代行业专家,因为大数据发现的新的真实联系,可能会颠覆传统行业专家,这个话题学术界可能很感兴趣。一个耐人寻味的例子是,基于大数据统计分析的自然语言翻译几年前就胜过了基于语义理解的语言学家派别,书中提到的一个从事语言翻译的算法小组甚至开玩笑地说,“每次我们组走了一个语言专家,我们的翻译精确度就提高一些”。
第3部分是关于大数据成为乔治·奥威尔《一九八四》里的“老大哥”,即通过技术手段实现了无处不在的监控以后,隐私和滥用的问题最为让人担心。笔者认为这个话题过于公共,而且已有很多文章在讨论,并不是本书的特质,况且大数据的兴起是一个渐进的过程,各个行业的实用案例尚在兴起,行业内部应专注于行业创新,关于公共的话题的讨论还是留给学者、政府和未来。
西方作者有一类是理念的鼓吹者,最著名是《失控》的作者KK(凯文·凯利),此类被读者推崇为传教士的作者,喜欢推广颠覆式的观念,产生一种前世今生(Before/After)比较的震撼力。本书作者也是如此,如此颠覆,强力的大数据时代似乎正在到来,然而,此类作者也会被人指责为“管杀不管埋”——提出理念,不对具体的可行性负责。回到前文提到的Gartner的“魔力象限图”,渐进的执行力才是大数据这种趋势逐步在各个行业开花的关键。
《大数据时代》书评
《Big Data》热门书评
-
故作惊人语的《大数据时代》
681有用 43无用 阿九 2013-08-01
花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打...
-
未知的information,已知的technology-写给未来的思维范式
132有用 4无用 Miss power 2013-02-11
两年前,还是社会学专业的我最喜欢翘的课叫做”社会统计学”,与其听着传统死板的抽样调查与回归分析,我更喜欢和一个做数据挖掘的数学系同学四处溜达。“数据挖掘(Data mining)是什么?”她跟我举了一个最简单的例子:“沃尔玛通过对超市里人们购买行为的大量数据分析,发现男人们来买啤酒的时候,通常也会买...
-
大数据时代的金融投资
104有用 7无用 eric 2013-02-13
大数据时代的金融投资思维金融数量化投资由于其巨大收益,是大数据最早应用的领域,而其也符合大数据最重要的三大思维变革:1) 不是随机样本,而是全数据。 根据作者的定义, 大数据是指不用随机分析,而采用所有数据的方法。 主要原因有二,一是当前的技术能力让人类可以处理海量的数据, 二是随机样本无法获取某些...
-
一个理工狗眼中的大数据
71有用 3无用 丧心病狂刘老湿 2014-05-10
作为一个学计算机出身的理工狗,我一直忍到自己写完论文才回过头来看这本书。此时距这书出版,已经一年有余,大数据的概念已经甚嚣尘上,无人不知了。 维克托和肯尼思在...
-
你已经体验到的大数据时代
69有用 7无用 星腾 2012-12-19
你认为什么是大数据?如果没有仔细关注过这个领域,也许这是一个很难让人轻松回答的问题,而自己之前也没有那么清晰。但对于数据的直觉和一直以来的理解,告诉自己,如果你能掌握更多的数据,其中会有很多有意思的事情发生。因为我们每个人都有数据在不断产生,而自己也在追踪着数据,习惯性地使用Manictime来记录...
书名: Big Data
作者:
出版社: Eamon Dolan/Houghton Mifflin Harcourt
副标题: A Revolution That Will Transform How We Live, Work, and Think
出版年: 2013-3-5
页数: 256
定价: USD 27.00
装帧: Hardcover
ISBN: 9780544002692