一、 什么是大数据?
根据维克托 迈尔•舍恩伯格和肯尼思 库克耶在《大数据时代》中所说,大数据并非一个确切的概念,更多的是一种可能的方式。“大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新的认知、创造新的价值的源泉,大数据还为改变市场、组织机构以及政府与公民关系服务。”、“大数据即一种新型的能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。”
读罢此书,本人更愿意认为,大数据有两层含义,第一层就是一个总结性的概念,是对海量数据的总称;第二层含义即书本中所指出的,是一种新型的能力与方式。
大数据时代区别于小规模数据时代的抽样分析,大数据时代,分析的样本不再需要经过抽样,直接将全体数据进行更快更准确地分析。
二、 大数据的核心是什么?
书中指出,预测,是大数据的核心。根据收集到的数据分析、挖掘出庞大数据库独有的价值(通过找出关联物并监控它,我们便可以预测未来),以便进行干预或提供相应的资源与服务。
我觉得,大数据的核心应当是减少冗余,提高资源配置效率。这里的效率包括两方面,资源配置的速度和配置的精确度(质量)。
自古以来,人类社会的发展便是资源配置不断优化的过程,大数据作为一种新型的生产工具,它能让我们通过分析海量的数据,得知该如何更有效地分配稀缺的资源。如医院通过对某个病人病史、生活习惯、衣食住行、工作娱乐情况等进行全方位分析,便可以准确了解病人的生活情况与生活环境,指出症结引起原因所在,只要建议病人针对引起病原的因素做出调整与医学干预,便可以了,完全避免了对病人过多的用药与盲目的干预。
同样的道理,如果银行通过分析某一申请人的家庭情况、消费历史、生活习惯、财务习惯、网页浏览记录等各方面的数据,便可以清晰了解此申请人各方面的情况以及推测其内心的真实想法与做法,从而判断申请人的贷款申请资格,决定该不该授信,授信多少等内容,所有的信息通过在大数据时代,能在系统中搜索一下,几分钟便能全部收集完成,甚至加上对申请人的反馈(决定借不借钱给他),也不过是十几分钟的事。相比以前,申请人申请后,银行得派出两名客户经理上门进行访问、调查、收集电信、征信等多方面的信息(大部分信息可能还未必能收集到,或者未必收集到准确的内容),再进行人工分析、鉴别等过程,少说也得几天吧?收集到信息之外,才决定要不要借钱给申请人,此处,有两点风险:一是收集到的信息准确度需要考究,二是只是收集到部分信息,大量有关次申请人的其他可能是弱相关的信息,没有收集,更增加了信息噪音,降低了结论的精确度,给银行业务带来风险。可见,大数据的运用不但提高了工作效率,节省了机构与申请人的时间,更能基于精确的信息,确保风险可控,且保证了授信给该申请人的正确性,将有限的资金用在刀刃上,提高资源配置质量。
三、 什么是大数据思维?
书中指出,大数据思维是一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。
那意思,是不是说,大数据思维便是相信数据分析的能力、数据分析的结果以及预测的准确性?这应当算一种信仰了。
书中认为,大数据与三个重大的思维转变有关:首先,要分析与某事物相关的所有数据,而不再依靠分析少量的样本;其次,乐于接受数据的纷繁复杂,而不再追求精确度;最后,我们的思维不再探求难以捉摸的因果关系,转而关注事物的相关关系。
大数据思维应当是一种意识,认识到大数据的无穷威力,并积极拥抱这个繁荣的时代;世界上的一切都是信息,都是可以量化分析的信息。如果将相关的信息进行交互分析,便能获得“上帝的视觉”——窥视知道分析对象的一切,包括所思所想;获得的信息可以通过类比(其他有同样行为举止的人已经干了什么),准确推测所思所想以及未来行为;根据推测出来的内容进行干预或服务,从而获得商业成功;在一切均有记忆、一切就能收集、能更加准确预测未来的时代,我们或许受困于过去的行为(他们成为别人预测我们下一步工作的素材,影响或好或坏,一辈子无法消弭);在这个时代,对隐私权、公平与正义的探讨上升至一个新的语境。
四、 我们其实都是众包。
大数据虽然是近些年才提出来的说法,但事实上,我们一直生活在数据海洋之中,只是在过去,我们从未意识到这些行为能被记录、被分析、从而成为生活中真实存在的永恒。如此时此刻点开的这篇文章,看着的这行字,便成为您这辈子个人数据的内容之一,永远存在。
浏览网页、看文章、逛街、买衣服、打游戏、吃甜点……这些行为是我们今天才有的吗?不是的,我们生下来就开始渐渐接触这一切,自然而然地发生着这些行为,只是,在遥远的以前,由于技术尚未发达,这曾经发生的一切如水冲过的沙滩,留下了记忆便消失得无影无踪,但在现在,有了云计算,有了更多的可以记录信息的设备,我们日常自然而然地进行着的这一切,才被记录了下来,变成了可分析的信息,变成了我们的一部分过往,永不消弭;而我们,也就自然而然地成为了大数据的“众包”。( 众包指的是一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法。(知乎 王喆 定义))
因此,无论自觉还是被迫,无论愿意不愿意,我们早就进入了大数据时代,早就成为了数据提供和享用的神经末梢。
不是么?
五、 我们该怎么办?
老子说,无为而治。西方也有谚语:预测未来最好的办法是创造未来。因此,我们还是该吃饭吃饭,逛街逛街,看美人看美人,吃甜点吃甜点……该干嘛干嘛去,将生活过成自己想要的样子(创造想要的未来)。
大数据时代究竟是什么样的时代
《Big Data》热门书评
-
故作惊人语的《大数据时代》
681有用 43无用 阿九 2013-08-01
花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打...
-
未知的information,已知的technology-写给未来的思维范式
132有用 4无用 Miss power 2013-02-11
两年前,还是社会学专业的我最喜欢翘的课叫做”社会统计学”,与其听着传统死板的抽样调查与回归分析,我更喜欢和一个做数据挖掘的数学系同学四处溜达。“数据挖掘(Data mining)是什么?”她跟我举了一个最简单的例子:“沃尔玛通过对超市里人们购买行为的大量数据分析,发现男人们来买啤酒的时候,通常也会买...
-
大数据时代的金融投资
104有用 7无用 eric 2013-02-13
大数据时代的金融投资思维金融数量化投资由于其巨大收益,是大数据最早应用的领域,而其也符合大数据最重要的三大思维变革:1) 不是随机样本,而是全数据。 根据作者的定义, 大数据是指不用随机分析,而采用所有数据的方法。 主要原因有二,一是当前的技术能力让人类可以处理海量的数据, 二是随机样本无法获取某些...
-
一个理工狗眼中的大数据
71有用 3无用 丧心病狂刘老湿 2014-05-10
作为一个学计算机出身的理工狗,我一直忍到自己写完论文才回过头来看这本书。此时距这书出版,已经一年有余,大数据的概念已经甚嚣尘上,无人不知了。 维克托和肯尼思在...
-
你已经体验到的大数据时代
69有用 7无用 星腾 2012-12-19
你认为什么是大数据?如果没有仔细关注过这个领域,也许这是一个很难让人轻松回答的问题,而自己之前也没有那么清晰。但对于数据的直觉和一直以来的理解,告诉自己,如果你能掌握更多的数据,其中会有很多有意思的事情发生。因为我们每个人都有数据在不断产生,而自己也在追踪着数据,习惯性地使用Manictime来记录...
书名: Big Data
作者:
出版社: Eamon Dolan/Houghton Mifflin Harcourt
副标题: A Revolution That Will Transform How We Live, Work, and Think
出版年: 2013-3-5
页数: 256
定价: USD 27.00
装帧: Hardcover
ISBN: 9780544002692