大数据面试题：数据倾斜解决方法 - 代码天地

大数据面试题：数据倾斜解决方法

企业开发 2023-09-18 18:38:18 阅读次数: 0

日常工作中数据倾斜主要发生在Reduce阶段，而很少发生在 Map阶段，其原因是Map端的数据倾斜一般是由于HDFS数据存储不均匀造成的（一般存储都是均匀分块存储，每个文件大小基本固定），而Reduce阶段的数据倾斜几乎都是因为key值数据量偏多的情况而导致的。

解决方法：

1：

set hive.groupby.skewindata=true;

如果任务长时间卡在99%则基本可以认为是发生了数据倾斜，建议调整参数以实现负载均衡，原理：生成的查询计划会有两个MRJob。第一个MRJob 中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的GroupBy Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的；第二个MRJob再根据预处理的数据结果按照GroupBy Key分布到Reduce中（这个过程可以保证相同的GroupBy Key被分布到同一个Reduce中），最后完成最终的聚合操作

2:小表关联大表操作，使用Mapjoin：

set hive.auto.convert.join=true;--自动开启MAPJOIN优化，默认值为true
set hive.mapjoin.smalltable.filesize=2500000;--通过配置该属性来确定使用该优化的表的大小，如果表的大小小于此值就会被加载进内存中，默认值为2500000(25M)

3:Join操作注意关联字段不能出现大量的重复值或者空值

4:Count(distinct id ) 去重统计要慎用，尽量通过其他方式替换

猜你喜欢

转载自blog.csdn.net/weixin_42258633/article/details/129019049

大数据面试题：数据倾斜解决方法

数据倾斜解决方法

Spark数据倾斜解决方法

hive数据倾斜解决方法

数据倾斜及其高效解决方法

Hive数据倾斜解决方法总结

数据倾斜的产生、解决方法

大数据面试题

大数据面试题！

大数据面试题解决方案

数仓--Hive-面试之Hive数据倾斜的原因及主要解决方法

大数据面试题(一)----HADOOP 面试题

大数据面试题(三)----MapReduce面试题

大数据面试题(八)----Kafka面试题

大数据面试题(十)----Zookeeper 面试题

大数据面试题(九)----Spark面试题

大数据面试题(七)----Flume面试题

大数据面试题(二)----HDFS面试题

大数据面试题(四)----YARN面试题

大数据面试题(六)----HBASE 面试题

大数据面试题(五)----HIVE面试题

Hive之数据倾斜的原因和解决方法

Hive 数据倾斜原因及解决方法（转）

Hive数据倾斜的原因及主要解决方法

浅析Redis集群数据倾斜问题及解决方法

Hive---数据倾斜的产生及解决方法

大数据：面试题收集（一）

大数据：面试题收集（四）

大数据算法面试题

大数据Hbase 面试题

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)