Hive性能优化简介（顺便介绍了性能工具--ANALYZE） - 代码天地

Hive性能优化简介（顺便介绍了性能工具--ANALYZE）

其他 2018-11-27 13:41:03 阅读次数: 0

ANALYZE关键字可以收集数值统计信息。

加速查询，直接从统计信息中拿，而不会再启动mapreduce去查询。

用desc命令去查统计信息。

Hive性能优化包含以下点：

partition table 这是最好的优化，比如用年月日，部门

联合查询，可以先按xx做分区，再按别的做分区

bucket table

经常被join连接查询的这种column上建立bucket

这才能提高查询效率

index

每当数据更新时，也要去更新索引，所以维护成本也不小。

实际用的比较少。

几种好用的数据类型，

orc ,parquet等，都是基于列的，所以查询性能非常高。

（数据过滤等经常用）

数据压缩

第一，可以减少很多空间。

第二，数据shuffle过程中传输速度也会变快。

但是压缩了也要解压，所以也不能压缩的太狠。

有专门的算法叫snappy 用于快速压缩，压缩比适中。

data localization

处理引擎放到另一个集群。。。

数据和算法尽量不分离，

比如说我hadoop我把三个拷贝增加到六个拷贝。

（这点不太懂）

Avoid small files

为什么使用动态分区会对集群产生不好的影响（产生小文件）？（间接问法）

避免存放太多小文件，原因如下：

1. 因为每个文件都会产生元数据存在namenode的内存。

namenode资源被过多消耗，性能会受到很大影响。

2. 因为block size是比较大的，文件虽然小，但是小文件增大后占的blocksize会越来越多。

解决方法：

1.多进行合并，有一些自动合并功能。没有用hive时，写第三方mapreduce job来合并。

2.多生成大文件的数据源再发给hadoop

Hive

可以用TEZ engine来代替mapreduce，它本质是mapreduce的最佳实践。

性能很高。

使用Hive LLAP

Hive2.0后 LLAP优化，在后台启动一个长久的线程，不会为每次查询再启动。

数据通过缓存来获得，而不是所有结果都直接去查询。

Hive transaction

不必要就不要建立事务，

很消耗资源

除非你有特殊需求。

猜你喜欢

转载自blog.csdn.net/u011495642/article/details/84331224

Hive性能优化简介（顺便介绍了性能工具--ANALYZE）

JVM性能优化简介

Android开发性能优化简介

性能优化工具：LeakCanary、Analyze

Tomcat性能优化简述

JAVA的性能优化简述

ORACLE性能优化简述

C++应用程序性能优化（一）——应用程序性能优化简介

Systemd启动性能优化工具systemd-analyze

spark 性能优化简要总结

前端性能优化简单入门

优化hive的性能配置

Hive性能优化（全面）

HIVE 性能优化

Hive性能优化

Hive性能优化大全

Hive函数及性能优化

iOS性能优化-Xcode Analyze静态分析

Hive性能优化总结(四)

Hive应用性能优化

Hive性能优化的任务配置

Hive（八）之性能优化

Hive性能优化之表数据优化

Hive性能优化之表设计优化

Android性能优化之工具介绍

性能优化之性能分析简介

【缓存与性能优化】一、简介

系统性能-嵌入式系统性能优化简述

Android性能分析和优化之 Analyze Apk

hive大小表join优化性能

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)