MapReduce中的数据倾斜

数据倾斜:

        由于map中的key通过hash取模算法进行分区,大多数取模的值都相同,这样就导致分区的数量出现两极分化,称这种现象为数据倾斜。

解决数据倾斜:

  1. 重写分区方法,进行自定义分区。
  2. 增大reduce的个数
  3. 重构数据的key,增大hash的随机概率。

Guess you like

Origin blog.csdn.net/wt5264/article/details/121931456