数据倾斜及解决办法

一、什么是数据倾斜

简单来说数据倾斜就是数据的key 的分化严重不均，造成一部分数据很多，一部分数据很少的局面。对于集群系统，一般缓存是分布式的，即不同节点负责一定范围的缓存数据。我们把缓存数据分散度不够，导致大量的缓存数据集中到了一台或者几台服务节点上，称为数据倾斜。一般来说数据倾斜是由于负载均衡实施的效果不好引起的。

在这里插入图片描述

举例说明：
举个 word count 的入门例子: 它的map 阶段就是形成（“aaa”,1）的形式，然后在reduce 阶段进行 value 相加，得出 “aaa” 出现的次数。若进行 word count 的文本有100G，其中 80G 全部是 “aaa” 剩下 20G 是其余单词，那就会形成 80G 的数据量交给一个 reduce 进行相加，其余 20G 根据 key 不同分散到不同 reduce 进行相加的情况。如此就造成了数据倾斜，临床反应就是 reduce 跑到 99%然后一直在原地等着那80G 的reduce 跑完。

二、造成数据倾斜的原因

1）key分布不均匀
（2）业务数据本身的特性
（3）建表时考虑不周
（4）某些SQL语句本身就有数据倾斜

html>

数据倾斜及解决办法

一、什么是数据倾斜

二、造成数据倾斜的原因

猜你喜欢