hive优化，并行查询 - 代码天地

hive优化，并行查询

其他 2018-08-27 15:25:04 阅读次数: 0

1、hive中控制并行执行的参数有如下几个：

$ bin/hive -e set | grep parall

hive.exec.parallel=false

hive.exec.parallel.thread.number=8

hive.stats.map.parallelism=1

其中：hive.exec.parallel=false、hive.exec.parallel.thread.number=8分别控制着hive并行执行的特性。hive.exec.parallel=false表示默认没有启用并行参数，可以将其设置为true，在执行作业前进行session级别设置；hive.exec.parallel.thread.number=8表示每个SQL执行并行的线程最大值，默认是8.

例如：

set hive.exec.parallel=true;

set hive.exec.parallel.thread.number=8;

select deptno,count(1) from emp group by deptno

union all

select deptno ,count(1) from emp group by deptno;

上面这个SQL的执行既可以启动并行，既可以同时执行不相关任务，而不需要一步一步顺序执行。

2、注意点：在hadoop上自行mapreduce任务数是有限制的，针对于集群资源充足的情况，并行自行可以很大程度提高性能，但如果集群资源本身就很紧张，那么并行并不能启动有效效果。

一个可能的hive作业设置为：

set mapred.max.split.size=100000000;
set mapred.min.split.size.per.node=100000000;
set mapred.min.split.size.per.rack=100000000;
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

set hive.exec.reducers.bytes.per.reducer=1000000000；

set hive.exec.reducers.max=256；

set hive.merge.mapfiles=true;

set hive.merge.mapredfiles =ture;

set hive.merge.size.per.task=256000000;

set hive.merge.smallfiles.avgsize=16000000;

set hive.exec.compress.intermediate=true;

set mapred.map.output.compression.codec= org.apache.hadoop.io.compress.SnappyCodec;

set hive.exec.compress.output=true;

set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

set hive.exec.parallel=true;

set hive.exec.parallel.thread.number=8;

select deptno,count(1) from emp group by deptno

union all

select deptno ,count(1) from emp group by deptno;

猜你喜欢

转载自www.cnblogs.com/kwzblog/p/9542362.html

hive优化，并行查询

GreenPlum的并行查询优化策略

hive查询和优化

hive查询优化总结

Hive查询优化

hive简单查询优化总结

Hive 并行

Hive开启mapjoin优化、并行执行、动态分区

Hive原理及查询优化(杨卓荦)

Hive的核心原理以及查询优化

hive: 优化配置及bug查询路径

Hive_HIVE优化指南_场景三_合理进行并行控制

Hive并行排序

hive并行执行job

Hive 高级优化（并行 JVM重用 Reduce数目推测文件 Map数目）

【大数据之Hive】二十四、HQL语法优化之任务并行度

Hive 优化-限制用户误交大作业查询

hive的查询注意事项以及优化总结

Hive的查询

Hive查询

Hive 查询

Hive——Hive查询

Hive --------- hive 的优化

[Hive进阶]-- Hive 优化

（hive）hive优化（转载）

Hive的优化

Hive 优化

hive优化

Hive 的优化

Oracle 并行查询

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)