单位读书活动要求读书写笔记,我的选择是《大数据时代》。
自从离开校园,就再没有为了要写读书笔记而读书了。而《大数据时代》也是我自主读书时通常不会选取的书目,算是借机会读一读自己不会涉猎的领域。
大数据时代是一种思想上的颠覆,满满地颠覆我所接受的20年的校园教育。读书的过程中,我必须不断地修正自己已有的认知,去理解、去接收、去适应大数据的世界。
大数据,首先是针对小数据提出的。小数据,即我们熟悉的统计学原理,通过少量的、有限的随机取样样本,预测总体样本的规模、趋势。而大数据的样本,是全体、是总体。大数据时代到来的前提首先是科技发展带来的数据采集、存储、处理、计算上的变化。大数据时代的数据量在小数据时代是无法想象的,更无法处理的。我们习惯了小数据时代有限的随机取样,而现在面临大数据时代,我们必须把自己的眼光放到全体数据基础上。
其次,在大数据时代数据的完整性和精确性不再是要求。这对我们的固有思维又是一个颠覆。我们习惯了小数据时代追求数据的完整性和精确性,习惯填满二维表里每一个空格。而在大数据时代,因为海量的数据,个别数据的不完整、不精确,被全体数据所弥补了。个别数据的不完美的缺憾,随着时间轴推进产生新的大量数据而不再重要。
再者,在大数据时代,结论是相关性,而不再是原因。通过对大数据的分析、建模,数据的利用者可以分析趋势,并预测未来,但他们并不清楚为什么会这样。而我们习惯的思维模式是,找到事物发生发展的原因与规律,然后预测未来。在大数据时代,很多作出准确预测的数据分析师本身并不是专业人士,甚至分析结论表明,每减少一个专业人士,预测的结果会更准确。这与我们的常识是相违背的。我们习惯向专业人士寻求信息咨询,而不是向数据分析师寻求帮助。而在大数据时代,掌握了大数据并建立模型的人,可以给我们提供咨询,尽管他们本身完全不明白为什么。
其实,无论是否读这本书,是否已为我们这些非数据从业人士所意识到,大数据已经深入在我们生活的方方面面。例如在书中被引用得最多的两个企业,Google和Amazon。虽然国内Google使用受限,但百度搜索引擎很多方面在模仿Google。当我们懒得切换输入法为中文的时候,即使输入拼音,它也会为我们输出相应中文的搜索结果。这是百度的搜索数据库在分析:在IP为中国大陆地区,字符分析为拼音字符串而不是英文,这个拼音代表的中文意义有哪几项,而根据这个IP的搜索历史记录,最可能被搜索的是哪个词。亚马逊中国本身就是我最常用的购物网站。常常我搜索一样商品,它会向我推荐类似商品,或者相关商品,有时候我还没意识到需要购买的商品,亚马逊会替我想到。这来源于亚马逊后台通过对全球顾客购买习惯的分析。
在我们享受大数据时代带来的便利的时候,不可避免的也会遭遇风险。书中描述了个人信息泄露的几个例子。在中国,几乎每个有手机的人都会接到垃圾短信和电话的骚扰。用户也可以通过下载手机助手之类的应用软件,共享其它用户对某个号码的标记,来预测某个陌生电话是否应该接听。这就是发生在我们身边的“大数据vs大数据”的例子。
作为一本畅销书,怎能没有槽点。
在我看来,这本书最大的槽点就是作为一本信息时代以信息为目标的书,相比字数,信息量不够大。前几章来来回回、反反复复,从全方位、多角度说的就是大数据时代三个特点。如果只是为了多举些例子,完全可以专门辟出一章应用集,而不是写了那么多chapter。专门读例子,其实可以是一件有趣的事情。
槽点之二,对于圈外人如何应用大数据并没有说太多。如果看这本书,是为了解决工作中大数据的问题,是完全没有帮助的。我看完书之后,只觉得自己应该去返修一下数据库,研究一下该如何建模。不过基于大数据时代特点是相关性,我推测答案应该是要找一个靠谱的数据库公司和数据分析公司。而个人的力量在大数据时代是那么无力,因为几乎不可能依靠个人之力收集到足够“大”的数据。个人的力量在大数据时代比战风车的唐吉坷德还要单薄。
槽点之三,对于普通民众如何避免自己的个人隐私被泄露,也没有明确。不过据我看书得出的结论,是“无解”,只能靠数据库拥有者的自律。但我们能信任他们的自律吗?或者数据库拥有者自大地以为用户的隐私不会被泄露,但他们无意之间却会泄露了大家的私密?
无论我们意识到与否,或者主观意愿如何,大数据时代已经来临,并且深入到我们生活、工作的方方面面。读完这本书,于我而言,虽然解了一些惑,但剩下的是更多惑和更多的忧心。
最无法笔记的读书
《Big Data》热门书评
-
故作惊人语的《大数据时代》
681有用 43无用 阿九 2013-08-01
花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打...
-
未知的information,已知的technology-写给未来的思维范式
132有用 4无用 Miss power 2013-02-11
两年前,还是社会学专业的我最喜欢翘的课叫做”社会统计学”,与其听着传统死板的抽样调查与回归分析,我更喜欢和一个做数据挖掘的数学系同学四处溜达。“数据挖掘(Data mining)是什么?”她跟我举了一个最简单的例子:“沃尔玛通过对超市里人们购买行为的大量数据分析,发现男人们来买啤酒的时候,通常也会买...
-
大数据时代的金融投资
104有用 7无用 eric 2013-02-13
大数据时代的金融投资思维金融数量化投资由于其巨大收益,是大数据最早应用的领域,而其也符合大数据最重要的三大思维变革:1) 不是随机样本,而是全数据。 根据作者的定义, 大数据是指不用随机分析,而采用所有数据的方法。 主要原因有二,一是当前的技术能力让人类可以处理海量的数据, 二是随机样本无法获取某些...
-
一个理工狗眼中的大数据
71有用 3无用 丧心病狂刘老湿 2014-05-10
作为一个学计算机出身的理工狗,我一直忍到自己写完论文才回过头来看这本书。此时距这书出版,已经一年有余,大数据的概念已经甚嚣尘上,无人不知了。 维克托和肯尼思在...
-
你已经体验到的大数据时代
69有用 7无用 星腾 2012-12-19
你认为什么是大数据?如果没有仔细关注过这个领域,也许这是一个很难让人轻松回答的问题,而自己之前也没有那么清晰。但对于数据的直觉和一直以来的理解,告诉自己,如果你能掌握更多的数据,其中会有很多有意思的事情发生。因为我们每个人都有数据在不断产生,而自己也在追踪着数据,习惯性地使用Manictime来记录...
书名: Big Data
作者:
出版社: Eamon Dolan/Houghton Mifflin Harcourt
副标题: A Revolution That Will Transform How We Live, Work, and Think
出版年: 2013-3-5
页数: 256
定价: USD 27.00
装帧: Hardcover
ISBN: 9780544002692