数据分析框架Hive学习总结！ - 代码天地

数据分析框架Hive学习总结！

其他 2019-04-06 17:11:05 阅读次数: 0

一hive本质
将Hql数据转化为MR程序进行数据分析的过程。

二hive与数据库的比较
1.hive没有索引而数据库有索引
2.hive有执行延迟（没有索引）而mysql相对执行速度较快
3.查询语言不完全相同，Hql是类Sql语言。
4.数据更新：hive不支持实时更新，主要是存数据然后进行分析，而数据库则支持实时数据更新
5.可扩展性，hive是基于hadoop的一种分析框架，所以hive也具有良好的扩展性。而数据库处理的数据量相对较少/
6.数据存储位置不同，hive的数据存储在HDFS，而数据库存在本地。

三数据类型
hive数据类型基本和java相似，然后特有的数据类型有： array，map，struct

四DDL数据定义
主要是建库建表语句（较简单）

伍DMlL数据操作
导入数据方式：
1load
2.insert into（overwrite）

六ETL数据清洗
写MR，打包到hive，运行（清洗数据），建表，导入数据

七企业优化
1.fetch抓取（不走MR）
2本地模式（用于测试）
3groupby（相当于combiner）
4.distinct去重（多个ReduceTask执行任务）
5.严格模式（需要开启防止笛卡儿积产生）
6建立动态分区（关闭严格模式），以表格某个字段作为分区值，动态导入

八存储格式和压缩格式
存储： TextFile ，squenceTextFile，orc（企业存储格式），parquet
压缩：Bzip2，Gzip，LZO，snappy（企业压缩方式）

九控制数据倾斜
控制MapTask（设置MaxSize的值去决定切片值大小从而决定切片数）
控制ReduceTask个数（setjobReduces）

十JVM重用（企业优化）
根据你的业务量去设置JVM重用数，进而优化MR从而提升job运行效率。

猜你喜欢

转载自blog.csdn.net/qq_43151441/article/details/88877712

数据分析框架Hive学习总结！

数据分析学习总结

python数据分析学习框架

Hive 数据分析函数

数据分析与深度学习总结

Hadoop学习笔记：数据分析引擎Hive

数据分析框架

数据分析总结

Hive数据仓库数据分析

数据分析学习总结笔记09：文本分析

数据分析学习总结笔记01：情感分析

数据分析学习总结笔记10：网络分析

数据分析学习总结笔记07：回归分析概述

数据分析学习总结笔记07：方差分析

基于Hadoop + Hive框架进行电子商务数据分析的设计与实现

hive简单数据分析实验

12、数据分析系统Hive/Pig

hive简单数据分析

Hive数据分析实战演练

hive 数据分析窗口函数

利用Hive进行数据分析

学习数据分析

数据分析学习

python数据分析框架

Python数据分析学习路线个人总结

数据分析学习总结笔记04：异常值处理

大数据Hive学习案例(1)——基于搜狗sogou_500w的日志数据分析

大数据Hive学习案例(3)——基于新浪微博的日志数据分析

大数据Hive学习案例(2)——基于汽车销售的日志数据分析

数据分析方法总结

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)