hive null 值倾斜数据处理方法

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/haohaixingyun/article/details/83090144
on case when a.user_id is null then concat(‘jd-hive’,rand() ) else a.user_id end = b.user_id;

如果两个表join 时 关联键 有众多null  值  ,null值数据会被分发到某一个节点 ,会导致数据倾斜  导致process 运行缓慢 或是因为内存溢出等原因被系统识别kill

猜你喜欢

转载自blog.csdn.net/haohaixingyun/article/details/83090144