真正讲“大数据”处理思路的书

sned_comer 对大数据的书评发表时间：2015-08-06 00:08:36

我真的不能忍受一帮子没读过此书，没写过代码，没搞过大数据的外行人在这边乱喷这本书。对豆瓣这本书的评价实在是太失望了。

这是我读到的第一本真正讲“大数据”思路的书。
面对海量数据的时候，我们的软件架构也会跟着发生变化。当你的数据量在内存里放不下的时候，你就得考虑硬盘；当你的硬盘也放不下的时候，你就得考虑分布式；当你做分布式的时候，你就得考虑数据共享/容错/一致性/可扩展/并行计算等等等等。。。

这本书的价值本身不在于教你机器学习算法，科普什么是流式处理，PageRank等等。这本书是告诉你，当你的数据量大到你不能在单机完成的时候，你可以通过哪些方式达到你的目的。本书最常用的几种方法有：
采样、近似计算(状态压缩)、并行计算（mapreduce）和降维等等。
因为近似计算和采样都涉及到新算法结果有效性的问题，所以有很多关于近似算法收敛至目标结果的证明。抱着这样的心态去读，你会发现书中介绍了很多非常巧妙的处理方式。珠玉在前，我也就不多卖弄。

书不厚，但内容详实，习题很棒，而且有丰富的引用文献，第二版在预售的时候就赶紧订购了。新版补充了SVD降维相关技术，以及目前最热的分布式机器学习相关技术。此书译者很刁钻，翻译的几本书都是精品。

实在想吐槽一下被顶的最多的那篇书评和那些无脑点赞的。
书的密度很大，每个知识点页数都不多，但至少都介绍清晰，而且还有深入探索用的文献。Mapreduce论文也不过10页左右，书里头用了30页，估计考虑到有人智商不够用。本书中mapreduce代码很少，因为书只介绍思路，习题中需要自己用mapreduce实现。目录中提到的每个方面，作者只介绍了其中需要用“大数据”思路去解决的问题，其他的方面有其他方面专业的书籍和论文可以去探索。作为一个从业一年的小同志，看了大家的评论，觉得现在互联网行业实在是有点浮躁。建议还在念书的同学们如果真的对大数据和分布式处理感兴趣的可以阅读本书。

再推荐一本Nathan Marz（storm作者）的《Bigdata》，这本书从架构的角度讲了实时处理和批处理如何有效地结合，以及相应的开源工具。如果要电子版的可以留言问我要，虽然我懒得上豆瓣了。

有用 0 无用 0

您对该书评有什么想说的？

《大数据》热门书评

书名：大数据
作者：
出版社：人民邮电出版社
原作名： Mining of Massive Datasets
副标题：互联网大规模数据挖掘与分布式处理
译者：王斌 | Jeffrey David Ullman
出版年： 2012-9
页数： 258
定价： 59.00元
装帧：平装
ISBN： 9787115291318

真正讲“大数据”处理思路的书

您对该书评有什么想说的？

《大数据》热门书评

78有用 78无用黑枪王荣格 2013-01-30

5有用 2无用小凤 2012-10-17

5有用 0无用喜欢晴天的某Z 2015-04-08

5有用 1无用 libisthanks 2012-11-27

3有用 0无用 linglongyouzhi 2013-06-14

真正讲“大数据”处理思路的书

您对该书评有什么想说的？

《大数据》热门书评

78有用 78无用 黑枪王荣格 2013-01-30

5有用 2无用 小凤 2012-10-17

5有用 0无用 喜欢晴天的某Z 2015-04-08

5有用 1无用 libisthanks 2012-11-27

3有用 0无用 linglongyouzhi 2013-06-14

78有用 78无用黑枪王荣格 2013-01-30

5有用 2无用小凤 2012-10-17

5有用 0无用喜欢晴天的某Z 2015-04-08