hive常用sql优化参数

hive优化参数
--HIVE_CONFIG=
set hive.exec.parallel=true;
set mapred.max.split.size=50000000;  -- 决定每个map处理的最大的文件大小,单位为B,即调整mapper的多少  需要先确定一个mapper处理的大小,默认为256m 即256000000
set mapred.min.split.size.per.node=50000000;  -- 节点中可以处理的最小的文件大小
set mapred.min.split.size.per.rack=50000000;  -- 机架中可以处理的最小的文件大小
set hive.exec.reducers.bytes.per.reducer=50000000;  -- 每个reduce处理的数据量,默认1GB 1073741824 
set hive.hadoop.supports.splittable.combineinputformat=true;  --是否合并小的输入文件,从而减小mappers的个数
set hive.vectorized.execution.enabled = true;       --矢量查询,每次处理数据时会将1024行数据组成一个batch进行处理,而不是一行一行进行处理,这样能够显著提高执行速度
set hive.vectorized.execution.reduce.enabled = true; --矢量查询,每次处理数据时会将1024行数据组成一个batch进行处理,而不是一行一行进行处理,这样能够显著提高执行速度
set mapreduce.map.memory.mb=5120;                   --调整使用内存
set mapreduce.reduce.memory.mb=5120;                --调整使用内存
 

猜你喜欢

转载自my.oschina.net/qlistener/blog/1797318
今日推荐