Hive常见优化方法 - 代码天地

Hive常见优化方法

其他 2020-04-23 19:01:31 阅读次数: 0

常规调优手段

Fetch抓取

某些情况查询不必用MapReduce计算，比如select*，可以直接读取文件

本地模式

有时数据量比较小，hive可以通过本地模式在单台机器上处理所有任务，对于小数据集，执行时间可以被明显缩短。

JVM重用　　
- 对于大量小文件，可开启JVM重用，即多个任务共用一个JVM而不用频繁开启和关闭

推测执行

对于一些bug或者资源分配不均等情况拖后腿的MapReduce任务，会推测出这样的任务并且开启备份任务，与该任务处理同一份数据，最终选用快的那个作为结果

严格模式（开启后Hive自动对某些操作做一定的限制，以免过低的查询效率）

开启后where中必须有分区过滤条件，不允许扫描所有分区
使用order by 必须有limit
限制笛卡尔积查询

count distinct 用 group by替换

空key过滤（大表join大表）

若空key不需要，则在join之前把空值的key过滤掉
如果空key需要包括在结果集里，则要把它加上一些散列数，分配到不同的reducer中防止数据倾斜

join的时候尽量将小表放大表左边（现版本Hive对其进行自动的优化。）

数据倾斜的解决

开启数据倾斜时均衡负载，同一个key分道不同的reduce处理，然后开启第二个MR根据与处理数据结果再按照groupbykey分不到reduce中完成最终的聚合操
合理设置map、reduce个数；小文件合并等常规MR优化
- 增大map数：减少切片大小
- 增大reduce个数
开启map端预先聚合，combine
小表存入内存，将reduce join转化为map join

猜你喜欢

转载自www.cnblogs.com/cun-yu/p/12762784.html

Hive常见优化方法

Hive常见优化

hive 常见优化

hive常见优化问题汇总

Hive使用常见问题&&优化

常见的集中优化方法

常见的凸优化方法

常见SQL优化的方法

常见的最优化方法

常见SQL优化方法

dp常见优化方法

Hive架构、倾斜优化、sql及常见问题

常见的几种最优化方法

前端性能优化常见方法

常见的web性能优化方法

sql优化常见的集中方法

【JavaScript】常见的性能优化方法

hive常见错误

hive 常见错误

Hive常见函数

Hive常见操作

hive的常见函数

hive常见的命令

Hive的常见配置

Hive的常见错误

HIVE 常见函数

hive常见语句

[Hive]Hive常用的优化方法

Hive的常见属性配置和Hive的常见指令

Hive -------- hive常见查询练习

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)