花了两天时间看完了大数据时代,该书是2013年1月初次出版的,我读的印次已经是2014年10月第14次印刷了。短短22个月时间,加印了13次,可以想见本书的受欢迎程度。
但是我读完之后感觉平平,并没有像读《人类简史》那样被震撼,被深深吸引。
可能是因为之前我就思考过关于太多大数据的问题了或者是说对本书了解还不够深入吧。
不过书中有几处还是很引人深思!
一、样本和全体
68页大数据洞察中提到,“只要我们能够得到一个事物更完整的概念,我们就能接受模糊和不确定的存在。就像印象派的画风一样,近看画中的每一笔都感觉是混乱的,但是退后一步你就会发现这是一幅伟大的作品,因为你退后一步的时候就能看出画作的整体思路了”。
在小数据时代,我们采用随机采样的样本分析法,统计学家们证明,采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。
上面这两段话可以这样理解:在小数据时代,我们自身是人类社会这幅画的一个很小很小的点。
我们想要通过各种各样的方式来了解这个世界,比如我们想知道某个国家在某个时段的确切人口数;某个城市在某个时刻交通拥堵情况;大选时选民到底偏向于哪个党派;但由于我们自身的局限,采集数据、分析数据成本非常的高。比如美国的人口普查局,1880年进行第一次人口普查时就耗时8年才完成了数据汇总。
所以我们发明了随机采样的统计学方法,在这幅宏大的画中,尽可能随机的圈定几个区域,通过对这几个区域的调查分析来窥一斑而见全豹。
这取得了很大的成功,成为了现代社会的主心骨。
可是因为样本不可能完全随机,而且在调查中,被调查者很可能会掩盖自己的真实意思而使样本被污染。
就像一幅人脸肖像画,也许我们通过很随机的80个点散布,然后调查该点周围3-5个像素的颜色,亮度等等,可以基本画出这张脸孔。
但是,万一有一个点被扔到了一个黑色的痣上?那这个人脸上就被人为的抹黑了一片。
而在大数据时代,一切都不一样。大数据不再随机采样,而是用“全体=样本”办法。
这就等于,原来我们只是这幅平面画上的一个点,一个像素。但是大数据可以把我们托起来,在空中凝视这幅画,窥全豹而见全豹。这样对事物的了解更全面,也更准确;对某些事件的处理也会更合理,更公正。
二、数字化与数据化
104页说明了数字化与数据化的区别(在此之前我一直把这两者混为一谈)。
数字化是把模拟数据转化为用0和1表示的二进制码;
而数据化是把一种现象转变为可制表分析的量化形式的过程。“数据化意味着我们要从一切太阳底下的事物中汲取信息,甚至包括很多以前我们认为和信息根本搭不上边的事情。”比方说,一个人所在的位置,引擎的振动,桥梁的承重等。
世界上第一个致力于数据化的人是一位美国海军军官,莫里。1839年,他在美国海军办公室工作时,把该办公室上百年的航海日志整理出来成了表格,并依据这些表格绘制了更安全更经济的航海路线。想想看这可是在19世纪!
而谷歌在2004年发布了野心勃勃的谷歌图书馆计划,2010年就有2000万册图书被扫描成了数字图书,相当于人类发明印刷机以来所有书写文明的15%(前几个月我看到一个视频称谷歌数字图书馆藏书已经达到1亿册,就是说全世界78%的书都已经被数据化)。那么,“通过检索和查询,我们可以对人类文明进行无穷无尽的文本分析,也可以揭示一个词以及词组第一次出现的时间及其成为流行词的时间,据此发现几百年来人类思维发展和思想传播的轨迹”。想想看这是多么惊人的成就!
如此一来,很多文字职业者可能都面临失业!
比如通过分析近三年的流行词汇和热点新闻,以及各个年龄层次的读者爱看的书籍,谷歌图书馆就可以编出年轻读者爱看的网络小说,年长一点的读者爱看的理财读物以及父母们最关心的教育书籍。而且可以想像,一定能热卖。
虽然基本是原有书籍的摘抄,但是太阳底下无新事!而且可别忘了,谷歌拥有世界上最大的数据库,他也记录了你诸多的爱好,能够精准的向你推荐你确实感兴趣的东西!
另外,翻译也将失业。因为根据112页的说法“系统就可以把翻译看成是一个简单的数学问题,只需要用电脑找出两种语文之间最恰当的对等词和词组。”
三、大数据的负面影响
在大数据时代如何保护个人隐私?
P220提出,从个人许可到让数据使用者承担责任。但是这也存在不足,当个人的数据被故意或者非故意公开的时候,伤害已经造成,并且很难弥补。本书并没有就这一点展开论述。
大数据时代如何保证我们不因“思想犯”而被捕?
P224页也有论述,主要基于三项原则,公开,公正,可反驳原则。
在电子设备上,数据的保存时间是有限制的。硬盘和光盘的寿命都很有限。
P143阐述了数据的折旧,含糊其词的提到可建立复杂的模型来分离有用和无用的数据。如何判定一个数据是不是有用,该不该继续保存?如果继续保存,那又得保存多久呢?本书并没有作答。
最后,大数据算法师MS是个不错的工作,有兴趣的同学可以试着了解一下,嘿嘿。
感觉平平,不是太吸引人
《Big Data》热门书评
-
故作惊人语的《大数据时代》
681有用 43无用 阿九 2013-08-01
花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打...
-
未知的information,已知的technology-写给未来的思维范式
132有用 4无用 Miss power 2013-02-11
两年前,还是社会学专业的我最喜欢翘的课叫做”社会统计学”,与其听着传统死板的抽样调查与回归分析,我更喜欢和一个做数据挖掘的数学系同学四处溜达。“数据挖掘(Data mining)是什么?”她跟我举了一个最简单的例子:“沃尔玛通过对超市里人们购买行为的大量数据分析,发现男人们来买啤酒的时候,通常也会买...
-
大数据时代的金融投资
104有用 7无用 eric 2013-02-13
大数据时代的金融投资思维金融数量化投资由于其巨大收益,是大数据最早应用的领域,而其也符合大数据最重要的三大思维变革:1) 不是随机样本,而是全数据。 根据作者的定义, 大数据是指不用随机分析,而采用所有数据的方法。 主要原因有二,一是当前的技术能力让人类可以处理海量的数据, 二是随机样本无法获取某些...
-
一个理工狗眼中的大数据
71有用 3无用 丧心病狂刘老湿 2014-05-10
作为一个学计算机出身的理工狗,我一直忍到自己写完论文才回过头来看这本书。此时距这书出版,已经一年有余,大数据的概念已经甚嚣尘上,无人不知了。 维克托和肯尼思在...
-
你已经体验到的大数据时代
69有用 7无用 星腾 2012-12-19
你认为什么是大数据?如果没有仔细关注过这个领域,也许这是一个很难让人轻松回答的问题,而自己之前也没有那么清晰。但对于数据的直觉和一直以来的理解,告诉自己,如果你能掌握更多的数据,其中会有很多有意思的事情发生。因为我们每个人都有数据在不断产生,而自己也在追踪着数据,习惯性地使用Manictime来记录...
书名: Big Data
作者:
出版社: Eamon Dolan/Houghton Mifflin Harcourt
副标题: A Revolution That Will Transform How We Live, Work, and Think
出版年: 2013-3-5
页数: 256
定价: USD 27.00
装帧: Hardcover
ISBN: 9780544002692