hive学习总结笔记 - 代码天地

hive学习总结笔记

其他 2018-05-29 12:07:11 阅读次数: 0

本文不介绍 hive的入门基础知识，只说一些关于hive的使用经验。

1)牢记一点hive只是一个基于Hadoop的数据仓库工具，把sql转换成mapreduce，它的强项在于数据统计、方便灵活开发测试，对于复杂的etl逻辑建议用临时表分阶段去处理或者编写mapreduce程序处理。

2)关注hive sql是否造成数据倾斜。解决数据倾斜的办法。了解你的数据分布如：是否某些key是其他key的多倍，或者关联的key为空等等。

3)稳定的调度系统非常重要。因为hive,tez运行的时候可能造成意外的错误，所以调度系统对已经上线的脚步自动重跑2,3遍就非常的好。

4)perl,Python脚步运行hql尽量一个脚步运行一段hql，对于意外发生的错误追数方便很多。

5)尽量理解hql怎么转化成mapreduce的，有助于性能调优、排错等。

6)尽早的过滤数据。不单单指某条hql过滤数据，而是从整体架构中考虑如何过滤数据。我们点击流日志每天17亿条(800G)左右的日志，选择过滤日志的方法就是，按日志类型拆分、一天一个分区、不同的业务类型拆分等相关手段。这样按日汇总、按月汇总数据容易很多。

猜你喜欢

转载自blog.csdn.net/xingyue0422/article/details/78246979

hive学习总结笔记

hive 笔记总结

Hive学习笔记——hive hook

Hive学习总结

hive学习笔记

Hive学习笔记 (二)

Hive学习笔记 (一)

Hive 学习笔记

Hive学习笔记 (三)

Hive学习笔记（二）

Hive学习笔记（一）

【hadoop学习笔记】——Hive

Hive学习笔记一

Hive—学习笔记（一）

【hadoop学习笔记】------Hive

[学习笔记]Hive架构

Hive学习笔记——metadata

Hive学习笔记二

hive学习笔记1

Hive学习笔记六

【Hive学习笔记】3

【Hive学习笔记】2

【Hive学习笔记】1

hive学习总结(8)—hive注意点

【Hive十】Programming Hive学习笔记

Hive学习笔记（四）-- hive的桶表

Hive 学习笔记(1)---hive的配置

Hive学习笔记（5）—— hive分桶

Hive学习笔记（4）—— hive练习

Hive学习笔记（3）—— hive 初次测试

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

周排行

决策树的部分理解

STM32软件IIC的实现

RocketMQ原理解析-HA

vue-动态路由（路由的传参和接参）

利用python对Excel中的特定数据提取并写入新表

【Ubuntu】 Ubuntu16.04搭建NFS服务

Elasticsearch基础操作与对应的curl命令行，python对接实现

JVM数据存储结构 & Java的值传递和址传递

yum命令使用指南

java基础（一）：java语法基础

每日归档

更多

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)