从第一次工业革命,到信息时代的来临,再到21世纪以来的硬件性能和计算机计算能力的飞速发展,一个样本到总体的观点转变正在慢慢向人们展现它非凡的能力,从票房预测,到犯罪预测,到个人喜好,到各行各业,可以说,世界正面临着一次新技术的革命。
人类从一开始认知世界,就是从解释因果开始的,从伽利略到牛顿,到麦克斯韦再到爱因斯坦,到近代的理论标准模型,人类用理论解释这世界的因果关系,数学家们有句名言,世间万物都是有规律可循的,规律是用偏微分方程描述的,一切问题归根到底都是数学问题,这些问题说的都是因果关系。物理学家,数学家,数学家,经济学家,每个行业的精英都致力于发展我们对于因果的认识,而这一切,在从前,是建立在小数据时代的基础上的,抽样的实验,已经深入人心,以至于随着技术的不断提升,如今数据的收集和存储早就已经可以完成大规模化了,人们还是桎梏于小数据的分析实在算不上是一种精明的决策,优先发现大数据并使用它的个人和团体已经发现了它的厉害之处,详见谷歌,亚马逊。
想想90后的成长之路,我发现了计算机革命的一路走来,算是赶上了这段革命的后端,存储能力,运算能力,近些年的社交网络的建立,数据早已无声无息的影响着人们生活中的方方面面,只是我们还未曾察觉,想想校内网,我们的所有个人信息,社交网络,我们的每日生活,作为信息早就被收集的一干二净,经过一些算法的加工处理,我们的个人喜好,所有的社交关系,全部被收集完全,这实在是一件真真切切的恐怖的事情,大数据的核心在于预测,这也正让我这个不太理解的人瞠目结舌,它的能力竟然如此之强,强于行业内的现有的所谓的专家,不管因果关系,不问为什么,只关心相关关系,只关心是什么,只关心会怎样,不关心为什么会这样,就像谷歌的翻译系统和微软早年的翻译软件一样,整个谷歌翻译软件团队没有一个语言学家,全部是软件工程师,这让我这个接受过部分高等教育的人着实难以接受,但是总体数据的确有这样的强大的不可思议的能力,只要样本=总体,接受不准确,研究相关性,我们完全可以做出正确的预测(指正确的概率让人可以接受),这是思维模式的一场变革,想想自己求学年代所学的数学物理知识源自的年代,我真心觉得人类一步步走过来,太多的不可思议了,在这里不多吐槽关于教育的问题。
正如沃尔玛的数据分析团队指出飓风季节蛋挞的销量增加了,在飓风季节,将蛋挞和飓风用品放在一起,使匆匆的顾客可以方便购买。这些人不知道关于销售的任何概念,也不知道消费者如何选择,但是数据发声了,事实就是这样,我只是知道是什么,但是不知道为什么,看似无理,实则意义非凡。
如今数据的收集在互联网的帮助下已经不是难事了,真正缺少的是能从数据中提取价值的能力,这就是为什么统计学家,数据库管理者,掌握机器理论的人成为了真正了不起的人,为什么数据挖掘进来成为一个热门行业,为什么数据分析家,人工智能专家,数学家或者统计学家可以从中受益,这也让我想到了前些日子看到的微博上一个介绍名人日常生活的微博,其时时性特别好,的确,这个例子对于传统的新闻行业是一个挑战,没错,在这场大数据革命中,没有一个领域可以幸免,传统的思维方式将受到挑战。
机遇和挑战也从来都是并存的,在这样一个时代里,想想,亚马逊,淘宝,京东监视着我们的购物习惯,谷歌,百度监视着我们的网页浏览习惯,人人,微博,QQ,Twitter窃听了我们心中的TA,我们的社交关系网,facebook更是无所不知,当然我们的话,就另当别论了。虽然你可能觉得这没所谓,不过是些无用的信息而已,又不是银行卡密码,不是身份证号码,但是大数据的真正威胁正在此,它可以基于各式各样的算法结构,来预测完全不相关领域人类的行为,大数据的核心是预测,人类科学的本质也是要描述自然,描述一些物质规律,最终的目的还是预测,可见这些都将是人类探究物质本源路上的必经之路,只是我们现在有了一个新的工具,一个新的方式。如果你尚未感觉到这其中的可怕之处,你可以想像一下,根据预测你接下来将要杀人,你真的想杀人,但是你尚未采取任何行动的时候,警察便将你抓起来枪毙了,你就知道大数据对我们的生活会有多大的影响。但是这是否意味着我们丧失了人类根本的自由意志,失去了自由选择生活的权利,答案必然是否定的,虽然人类有自己固有的弱点,错觉,直觉,错误,但是这些特点的另一面确是创造力,直觉和天赋。正是这些品质使我们不断进步。
最后套用书中一句话作为结尾“凡是过去,皆为序曲”。科学说到底说的就是测量世界,测量的更加准确,从这个角度上说,一旦一切皆可测量,数据化全部总体,达到那样一个数据化的时代的时候,我们也就从另一条路找到了最后的目的地,真正成为神。
第二次读:
大数据时代,一个被嚼烂的词汇,不知从何时起,兴起了数据科学的狂潮,本书核心论点,第一,要全体不要抽样,第二,要相关不要因果,第三,要效率不要精确。弊端:产业生态环境,数据安全隐私,信息公正公开。本书实例众多,理论残缺,可以说是举了一系列的例子要论证观点的,我们知道这种论证方式逻辑上存在谬误。故而,本书可以说是一本数据科学的正面的背景教学,供谈资。数据科学基础:云计算,人工智能和机器学习,大规模处理结构数据算法,日渐增长的计算速度和数据规模的指数增加。
Eg:
1.2009年甲型H1N1病毒,公共卫生组织和谷歌的预测;
2.1994年Farecast系统,预测机票走势;
3.2003年,谷歌开始进入机器翻译,无所不包的谷歌翻译系统;
4.亚马逊的图书推荐;
5.沃尔玛的蛋挞和雨伞;
6.ReCapthca,验证码;
7.Decide.com 预测商品价格;
Q&A:
1.大数据的核心是预测,不论是预测未来还是预测人类行为,或是其他什么,存疑。
2.相关论取代因果论,上帝已死的时代,上升到哲学高度,存疑。
3.作者对样本分析给予了所能给予的极大的批评,并强烈的认为总体代替样本的种种理由,而没有具体言明其中道理,何为总体,如何定义总体,总体就那么容易获得?还是说获得总体中的大部分,如果是后者,本质上还是统计学的抽样,只不过置信概率大一些,为何要将抽样一棒子打死,如此的论证方式,不得不让人联想到稻草人谬误,存疑。
4.作者说谷歌的翻译系统优于微软的,简单几笔,仅仅给出了数据量的区别,然后给出结论,大数据牛,存疑。
Thinking:
淘宝、京东、亚马逊监视着我们的购物习惯,百度、谷歌监视着我们浏览网页习惯,人人、微博窃听我们心中的TA,微信似乎什么都知道,包括我们的社交关系网。
凡事过去,皆为序曲;测量一切,即为上帝
[数据科学]1-背景
《Big Data》热门书评
-
故作惊人语的《大数据时代》
681有用 43无用 阿九 2013-08-01
花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打...
-
未知的information,已知的technology-写给未来的思维范式
132有用 4无用 Miss power 2013-02-11
两年前,还是社会学专业的我最喜欢翘的课叫做”社会统计学”,与其听着传统死板的抽样调查与回归分析,我更喜欢和一个做数据挖掘的数学系同学四处溜达。“数据挖掘(Data mining)是什么?”她跟我举了一个最简单的例子:“沃尔玛通过对超市里人们购买行为的大量数据分析,发现男人们来买啤酒的时候,通常也会买...
-
大数据时代的金融投资
104有用 7无用 eric 2013-02-13
大数据时代的金融投资思维金融数量化投资由于其巨大收益,是大数据最早应用的领域,而其也符合大数据最重要的三大思维变革:1) 不是随机样本,而是全数据。 根据作者的定义, 大数据是指不用随机分析,而采用所有数据的方法。 主要原因有二,一是当前的技术能力让人类可以处理海量的数据, 二是随机样本无法获取某些...
-
一个理工狗眼中的大数据
71有用 3无用 丧心病狂刘老湿 2014-05-10
作为一个学计算机出身的理工狗,我一直忍到自己写完论文才回过头来看这本书。此时距这书出版,已经一年有余,大数据的概念已经甚嚣尘上,无人不知了。 维克托和肯尼思在...
-
你已经体验到的大数据时代
69有用 7无用 星腾 2012-12-19
你认为什么是大数据?如果没有仔细关注过这个领域,也许这是一个很难让人轻松回答的问题,而自己之前也没有那么清晰。但对于数据的直觉和一直以来的理解,告诉自己,如果你能掌握更多的数据,其中会有很多有意思的事情发生。因为我们每个人都有数据在不断产生,而自己也在追踪着数据,习惯性地使用Manictime来记录...
书名: Big Data
作者:
出版社: Eamon Dolan/Houghton Mifflin Harcourt
副标题: A Revolution That Will Transform How We Live, Work, and Think
出版年: 2013-3-5
页数: 256
定价: USD 27.00
装帧: Hardcover
ISBN: 9780544002692