MapReduceshuffle过程剖析及调优
本文来自于网络,介绍了Mapper端,环形Buffer数据结构,Spill,合并Spill文件,Reducer端,合并,性能调优等。在HadoopMapReduce中,框架会确保reduce收到的输入数据是根据key排序过的。数据从Mapper输出到Reducer接收,是一个很复杂的过程,框架处理了所有问题,并提供了很多配置项及扩展点。一个MapReduce的大致数据流如下图:Mapper的输出排序、然后传送到Reducer的过程,称为shuffle。本文详细地解析shuffle过程,深入理解这个过程对于MapReduce调优至关重要,某种程度上说,shuffle过程是MapReduce的核
用户评论