对于YARN的核心原理,作者还是都讲到了,而且分析得相对较透彻,只有较早和持续关注Hadoop 2.0-YARN的人才能这么快写出一本书来,对于这本书总体来说是不错的,干货不少,值得一看。
在给此书提点建议:文中使用了大量的状态图,还把所有的状态和事件全部都描述了一遍,个人觉得阅读效果并不好,而且文中很多内容与作者另一本书《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理 》重复。
在说一下Hadoop 2.0 YARN 我目前的理解:
一、对于YARN,个人觉得它很多设计,更组件化,更OO,更插件化,更开放了,具体表现在:
1.状态变换使用状态机器来实现,想起在Hadoop之前的版本,我的个去,那是个乱啊,各种的if else,我曾经在Job里新增了一个状态,那是个痛苦啊。。。
2.序列化框架更加开放(开始使用Protoc和Avro,尽管内部RPC还是使用的Writable,但这是趋势),支持跨语言。
3.关键算法和流程支持扩展和重写,如MapReduce的Shuffle这块儿的数据传输和排序算法都支持重写。
二、 对于统一细力度资源管理、调度、资源监控/隔离,比以前基于Slot简单粗暴的管理确实好了太多,但是如果想支持多种框架,支持服务级,长短作业进程的统一管理,YARN走的路还很长。
三、对于多种并行框架统一在YARN上运行,我觉得目前还是不太现实,还有太多优化的地方,就简单拿MapReduce来说,以前作业直接就上JobTracker了,现在还要先启动MRAppMaster。
四、而且YARN的HA现在做得也很水,只支持一个自动的重启+读日志恢复,不能做到热备。
总之:对于YARN我个人的看法是,一定是趋势,上Hadoop2.0跑MR是绝对给里没有问题的,对于跑多种并行框架还需要自己深度优化。
目前市面上分析YARN最深入的一本书
《Hadoop技术内幕》热门书评
-
目前市面上分析YARN最深入的一本书
4有用 0无用 灰色影子 2014-05-31
对于YARN的核心原理,作者还是都讲到了,而且分析得相对较透彻,只有较早和持续关注Hadoop 2.0-YARN的人才能这么快写出一本书来,对于这本书总体来说是不错的,干货不少,值得一看。在给此书提点建议:文中使用了大量的状态图,还把所有的状态和事件全部都描述了一遍,个人觉得阅读效果并不好,而且文中...
-
虽说后面部分稍有重复,但也是目前市场上最详细和深入的YARN书籍
0有用 0无用 PhD_Jason 2015-10-23
现在大数据在互联网领域可谓是如日中天,本人作为一名涉足大数据领域的博士,对华章科技的赠书,表示感谢。看完本书之后,首先作者对现在的大数据领域理解非常深入,但本书不适合初学者,适合有一定基础的人观看,由于我涉及的领域需要对Hado...
书名: Hadoop技术内幕
作者: 董西成
出版社: 机械工业出版社
副标题: 深入解析YARN架构设计与实现原理
出版年: 2013-11-30
页数: 396
定价: 69.00元
装帧: 平装
丛书: 大数据技术丛书
ISBN: 9787111445340