我真的不能忍受一帮子没读过此书,没写过代码,没搞过大数据的外行人在这边乱喷这本书。对豆瓣这本书的评价实在是太失望了。
这是我读到的第一本真正讲“大数据”思路的书。
面对海量数据的时候,我们的软件架构也会跟着发生变化。当你的数据量在内存里放不下的时候,你就得考虑硬盘;当你的硬盘也放不下的时候,你就得考虑分布式;当你做分布式的时候,你就得考虑数据共享/容错/一致性/可扩展/并行计算等等等等。。。
这本书的价值本身不在于教你机器学习算法,科普什么是流式处理,PageRank等等。这本书是告诉你,当你的数据量大到你不能在单机完成的时候,你可以通过哪些方式达到你的目的。本书最常用的几种方法有:
采样、近似计算(状态压缩)、并行计算(mapreduce)和降维等等。
因为近似计算和采样都涉及到新算法结果有效性的问题,所以有很多关于近似算法收敛至目标结果的证明。抱着这样的心态去读,你会发现书中介绍了很多非常巧妙的处理方式。珠玉在前,我也就不多卖弄。
书不厚,但内容详实,习题很棒,而且有丰富的引用文献,第二版在预售的时候就赶紧订购了。新版补充了SVD降维相关技术,以及目前最热的分布式机器学习相关技术。此书译者很刁钻,翻译的几本书都是精品。
实在想吐槽一下被顶的最多的那篇书评和那些无脑点赞的。
书的密度很大,每个知识点页数都不多,但至少都介绍清晰,而且还有深入探索用的文献。Mapreduce论文也不过10页左右,书里头用了30页,估计考虑到有人智商不够用。本书中mapreduce代码很少,因为书只介绍思路,习题中需要自己用mapreduce实现。目录中提到的每个方面,作者只介绍了其中需要用“大数据”思路去解决的问题,其他的方面有其他方面专业的书籍和论文可以去探索。作为一个从业一年的小同志,看了大家的评论,觉得现在互联网行业实在是有点浮躁。建议还在念书的同学们如果真的对大数据和分布式处理感兴趣的可以阅读本书。
再推荐一本Nathan Marz(storm作者)的《Bigdata》,这本书从架构的角度讲了实时处理和批处理如何有效地结合,以及相应的开源工具。如果要电子版的可以留言问我要,虽然我懒得上豆瓣了。
真正讲“大数据”处理思路的书
《大数据》热门书评
-
作为一个从业二十年的屌丝,本屌真心被这本书吓尿了!
78有用 78无用 黑枪王荣格 2013-01-30
麻烦支那猪以后翻译外文书籍,先找个稍微懂行的把书看一遍行吗!鉴于中文翻译缩水不准的情况,本掉千辛万苦找来英文原版,一看到目录,本屌就硬了,尼玛作者太牛逼了!最新补充一句,话说如果这本书的名字叫做类似《数据挖掘基础》的话,本屌绝壁不喷它。本来就是基础的基础,名字介绍扯那么大旗子干嘛,又没那本事。MAP...
-
译者王斌老师对这本书的导读建议
5有用 2无用 小凤 2012-10-17
《大数据:互联网大规模数据挖掘与分布式处理》导读建议:一、此为算法书,需要一定算法基础,非科普书,一般人读起来不会那么顺畅,需要努力啃读。二、此书并非虚幻的大数据概念书,直接关注大数据的规模对算法应用造成的实际问题。三、在应用背景方面,本书也没有完全展开,所以对应用有了解较好。...
-
本书需要配合课程进行学习
5有用 0无用 喜欢晴天的某Z 2015-04-08
看到好多人说这本书是大纲,是目录,没啥内容,讲的浅。那就对了。本书是MIT CS246课程MMDS使用的讲义,还有配套的Slides和HW,所以观看本书请配套课程进行学习,同时coursera上也有配套的课程。See more detail: http://www.mmds.org/...
-
《大数据》读后重整理
5有用 1无用 libisthanks 2012-11-27
读技术书于我而言就像高中物理老师说的那样:一看就懂、一说就糊、一写就错。为了不马上遗忘昨天刚刚看完的这本书,决定写点东西以帮助多少年之后还有那么一点点记忆。好吧,开写。 1. 总体来...
-
希望翻译水平提上去
3有用 0无用 linglongyouzhi 2013-06-14
从总体安排来看,书的结构还是不错的。没看过英文的,但是中文版的行文真的不好,磕磕绊绊看了一半以后实在是没有兴趣看后面的了。之前了解的pagerank看了以后了解了,之前不了解的adwords还是不了解,...
书名: 大数据
作者:
出版社: 人民邮电出版社
原作名: Mining of Massive Datasets
副标题: 互联网大规模数据挖掘与分布式处理
译者: 王斌 | Jeffrey David Ullman
出版年: 2012-9
页数: 258
定价: 59.00元
装帧: 平装
ISBN: 9787115291318