Shuffle（洗牌）

Shuffle（洗牌）
   图
   map
       1.Map Task的输出k v，一开始会进入溢写缓冲区中，对数据做处理，比如分区、排序等操作。
       2.有几个Map Task，就有几个对应的溢写缓冲区(分区)
       3.溢写缓冲区默认是100MB，溢写阈值：0.8。（都可通过配置文件调节）
       4.当缓冲区中的数据达到溢写阈值时，会发生Spill溢写过程。把内存中数据溢写到磁盘的文件上。
       5.第4步生成的文件，称为Spill溢写文件
       6.每一个Spill文件里的数据都是已分好区，且排好序的
       7.当Spill过程结束之后，会发生Merge过程。目的是将多个Spill合成最后的结果文件（Finaloutput）。
       8.结果文件是一个已分好区，且已排序的文件。
       9.Spill和Merge过程不一定会发生。
       10.如果发生了Spill过程，最后存留在溢写缓冲区里数据，会Flush到文件中。目的是确保数据都落到文件中。
       11.如果发生了Spill过程，但不一定会发生Merge。即如果只有一个Spill文件，则此文件就是最后的结果文件。
       12.从性能调优的角度，可以加入Combiner中间过程，会减少数据在溢写缓冲区的存储，间接减少了Spill次数，即减少了磁盘的I/O次数。
       13.如果加入了Combiner中间过程，在溢写缓冲区的处理阶段是一定会发生的。但是在Merge过程中，可能会发生。
       14.Merge的Combiner不发生的条件：Spill文件的数量<3
       15.从性能调优的角度，可以适当增大溢写缓冲区的大小，可以减少Spill的溢写次数。要根据服务的硬件情况来调节。一般服务器内存：32GB或64GB。结合集群的：slave节点数量+Job数量+每个Job的MapTask数量
       16.溢写缓冲区也叫环写缓冲区（环形缓冲区），注意：溢写阈值的参数可调，但是不要调成100%。目的是为了避免产生写阻塞时间。此外，环形缓冲区的好处是每个MapTask重复利用同一块内存地址空间，可以减少内存碎片的产生，提高内存使用率，而且从GC角度来看，可以减少full gc发生的次数。
       17.可以开启Map Task的压缩机制，将最后的结果文件做压缩。好处可以减少网络数据的传输。
       18.当Merge过程结束后，所有的Spill文件被删除
       19.有几个Map Task ，就有几个最后结果文件。
       20.最后的结果文件存到服务节点的本地磁盘上。
       21.虽然一个Map Task处理的切片数据是128MB(满的情况），但是不能凭输入的数据大小来判断map的输出大小，要根据实际的业务代码来判断。
       22.Map Task的输出结果有两类收集器：
           ①DirectMapOutputCollector 在没有reducer组件的情况下使用
           ②MapOutputBuffer 在有reducer组件的情况收集，在这个类中，包含了Spill 、溢写缓冲区相关的对象
   Reduce
       1.当Map阶段接收，reduce会Fetch自己分区的数据
       2.reduce 的Fetch结束后，会进行Merge 和Sort
       3.Merge和Sort结束后，会发生reduce，按相同key聚合，形成key iterator传给开发者
       4.Fetch线程数默认是5个，此参数可以调节。一般的做法是让此线程数接近或等于map task 数量。达到并行抓取的目的。

猜你喜欢