首发于虎嗅网 http://www.huxiu.com/article/8273/1.html
《大数据时代》是一本真正懂大数据的人写的实实在在的关于大数据方方面面的书。
我拿到这本书的当晚,只看了引言部分,就迫不及待在豆瓣上标记了在读。因为又感受那种真正的行家出手时才会有的,厚积薄发高屋建瓴势如破竹的快感。我当时便下断言,这本书已经秒杀所有同题。等到第二天我将这本书看完,觉得我前一晚的判断还是正确的。这本书条理分明、详略得当、引述丰富,把大数据梳理得无比清晰,解决了很多困惑我已久的问题,至少要比那些以其昏昏使人昭昭欺世盗名的专家学者好五倍。
大数据是2012年TMT圈最时髦概念的排头兵。今年3月腾讯推出QQ圈子,按共同好友的连锁反应摊开你的人际关系网,把你的前女友推荐给未婚妻,让人震惊之余,也会感慨这是腾讯多年数据积累的厚积薄发;手机游戏愤怒的小鸟年中曾透露其每天用户登录超过140万次,运营商Rovio每发布一个新的应用,都会立即改变流量,虽然这个量级跟国内的新浪微博和铁道部12306相比还差很远,但光从“体积”看这也算是个大数据了;今年11月奥巴马大选连任成功的胜利果实也被归功于大数据,因为他的竞选团队进行了大规模与深入的数据挖掘。时代杂志更是断言,依靠直觉与经验进行决策的优势急剧下降,在政治领域,大数据的时代已经到来;各色媒体、论坛、专家铺天盖地的宣传让人们对大数据时代的来临兴奋不已,无数公司和创业者都纷纷跳进了这个狂欢队伍。几乎每天都能看到有人在谈论大数据,大数据好像成了可以把任何东西都往里面装的框。尽管我们都知道大数据绝不会仅仅只是“大”而已,但真正能说清楚大数据是什么的人却不多。
在这大数据时代来临的前夜,这本书的作者,野心勃勃的舍恩伯格将这个问题说清楚了。他不断下定义举例子,试图给大数据划定疆域与边界,从思维、商业、管理三个维度分析大数据可能给人类带来的变革和挑战。他还指出大数据时代处理数据理念上的三大转变:“不要随机样本,而是全体数据”“不是精确性,而是混杂性”“不是因果关系,而是相关关系”。作者认为包括文字、方位、沟通等一切事物皆可量化,这些数据的价值在被发掘后仍能不断给予,并厘清了在挖掘过程中数据、技术和思维三类玩家的角色定位。同是大数据行家的译者周涛认为这本书好在三个地方:观点掷地有声、观念高屋建瓴、例子丰富详实。而这三者近乎完美地结合起来,作者驾驭大问题的能力和丰富的知识令人赞叹。
抽样分析是信息收集手段不完善时代的产物,它或许能更快更好地发现问题,但却不能回答事先没考虑过的问题。书中举了大数据与乔布斯癌症治疗的故事,乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人,他得到的不是样本,而是包括整个基因的数据文档。由于医生可以按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。
大数据时代的另一理念是要效率而非绝对准确,要允许一点点的错误和不完美。谷歌2006年涉足机器翻译,谷歌翻译系统为了训练计算机,会吸收它所能找到的全部翻译。谷歌将语言视为能够判别可能性的数据,而非语言本身。假设你要将中文译作俄语,它可能会选择英语作为中介语言,因为在翻译的时候它能够适当增减词汇,灵活性提高了很多。
关于大数据最早最著名的例子可能来自美国第二大超市塔吉特百货。明尼苏达州一家塔吉特门店曾被客户投诉,一位中年男子指控塔吉特将婴儿产品优惠券寄给他的女儿——一个高中生。但没多久他却来电道歉,因为女儿经他逼问后坦承自己真的怀孕了。塔吉特百货就是靠着分析用户所有的购物数据,然后通过相关关系分析得出事情的真实状况。
随着大数据的出现,数据的价值也在发生改变。所有网民都会被网站要求过填写证明你是人而非机器的验证码,这项名为“CAPTCHA”的技术在2000年被发明时是为了防止垃圾邮件和不必要的骚扰,后来发明者又寻找到了使人的计算能力得到更有效利用的方法,发送两个单词,其中一个单词用来确认输入结果,另外一个机器无法识别的字符则随机发送给五个人,直到他们都输入正确才确认这个单词。这也是我们有时明明输错了最终也能登陆的原因。2009年谷歌收购了这家做验证码公司reCAPTCHA,并将其技术用于图书扫描项目,自此全世界的网民都沦为谷歌的免费打字员。。(谷歌太贱了!)因为众包的力量,这项技术每年能为谷歌省下十多亿美元。
作者最后提到,如果数据不能为我所用,那我们将会沦为数据的奴隶。要防止这种失控局面的出现,至少需要我们在管理层面做出四种变革:1、将个人隐私保护从个人许可到由数据使用者承担责任;2、个人该为其行为而非倾向负责;3、不能让大数据成为黑匣子,它需要雇佣外部监察人来维护公众信任;4、反数据垄断大亨。
如果一个人独自到了陌生城市,第一件事最好就是买张地图。一张好的地图可以让我们知道整体、方向、位置、重要特点以及我们的起点、终点、中间的路径,照着地图走才不易将自己迷失。如果你对大数据概念理解得还不是十分清晰,那么这本《大数据时代》就是你的好地图。
这才是大数据
对“这才是大数据”的回应
《Big Data》热门书评
-
故作惊人语的《大数据时代》
681有用 43无用 阿九 2013-08-01
花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打...
-
未知的information,已知的technology-写给未来的思维范式
132有用 4无用 Miss power 2013-02-11
两年前,还是社会学专业的我最喜欢翘的课叫做”社会统计学”,与其听着传统死板的抽样调查与回归分析,我更喜欢和一个做数据挖掘的数学系同学四处溜达。“数据挖掘(Data mining)是什么?”她跟我举了一个最简单的例子:“沃尔玛通过对超市里人们购买行为的大量数据分析,发现男人们来买啤酒的时候,通常也会买...
-
大数据时代的金融投资
104有用 7无用 eric 2013-02-13
大数据时代的金融投资思维金融数量化投资由于其巨大收益,是大数据最早应用的领域,而其也符合大数据最重要的三大思维变革:1) 不是随机样本,而是全数据。 根据作者的定义, 大数据是指不用随机分析,而采用所有数据的方法。 主要原因有二,一是当前的技术能力让人类可以处理海量的数据, 二是随机样本无法获取某些...
-
一个理工狗眼中的大数据
71有用 3无用 丧心病狂刘老湿 2014-05-10
作为一个学计算机出身的理工狗,我一直忍到自己写完论文才回过头来看这本书。此时距这书出版,已经一年有余,大数据的概念已经甚嚣尘上,无人不知了。 维克托和肯尼思在...
-
你已经体验到的大数据时代
69有用 7无用 星腾 2012-12-19
你认为什么是大数据?如果没有仔细关注过这个领域,也许这是一个很难让人轻松回答的问题,而自己之前也没有那么清晰。但对于数据的直觉和一直以来的理解,告诉自己,如果你能掌握更多的数据,其中会有很多有意思的事情发生。因为我们每个人都有数据在不断产生,而自己也在追踪着数据,习惯性地使用Manictime来记录...
书名: Big Data
作者:
出版社: Eamon Dolan/Houghton Mifflin Harcourt
副标题: A Revolution That Will Transform How We Live, Work, and Think
出版年: 2013-3-5
页数: 256
定价: USD 27.00
装帧: Hardcover
ISBN: 9780544002692