大数据生态体系产品(1) - Hive的架构与执行过程

企业开发 2023-07-01 19:34:48 阅读次数: 0

文章目录

1. MapReduce实现SQL
- 1.1 SQL实现
- 1.2 MapReduce实现
2. Hive的架构
3. Hive执行过程

1. MapReduce实现SQL

下表pv_users为用户访问网页的数据存储：

pageid	age
1	25
2	25
1	32
2	25

查询不同年龄段访问网页的数据情况。

1.1 SQL实现

SQL语句如下：

Select pageid, age, count(1) From pv_users Group By page_id, age;

查询结果为：

pageid	age	count
1	25	1
2	25	2
1	32	1

1.2 MapReduce实现

将<pageid, age>作为Map的Key，Map的输出为：<<pageid, age>, 1>;
通过Shuffle进行Sort后，进行Reduce;
Reduce的输出就是：<<pageid, age>, count>;

下图为详细流程，便于理解：

Hive-SQL-MapReduce过程

既然SQL能够被MapReduce计算处理，而对于做数据分析的人来说，写MapReduce程序有学习成本和负担，不如继续写SQL来的方便，在这样的情况下，Hadoop大数据仓库的Hive工具就诞生了。

SQL之所以可以转为MapReduce，是因为两者在数学上是等价，MapReduce本质就是字段划分→查询→分组聚合，SQL也是这个。这也是Hive能实现的基础，SQL是声明式语言，比写MapReduce简单多了。

2. Hive的架构

Hive由Facebook开源，用于解决海量结构化日志的数据统计，能够直接处理我们输入的SQL语句（Hive的SQL语法和数据库标准SQL略有不同），调用MapReduce计算框架完成数据分析操作。

Hive实现的基本原理：

Hive处理的数据存储在HDFS
Hive分析数据底层的实现是MapReduce
执行程序运行在Yarn上

下面是它的架构图：

Hive架构图

3. Hive执行过程

通过Hive的Client向Hive提交SQL命令。

如果是创建数据表的DDL（数据定义语言）

Hive会通过执行引擎Driver将数据表的信息记录在Metastore元数据组件中，通过这个组件通常用一个关系数据库实现，记录表名、字段名、字段类型、关联HDFS文件路径等数据库的Meta信息。

如果是查询分析数据的 DQL（数据查询语句）

Driver就会将该语句提交给自己的编译器Compiler进行语法分析、语法解析、语法优化等一系列操作，最后生成一个MapReduce执行计划。然后根据执行计划生成一个MapReduce的作业，提交给Hadoop的MapReduce计算框架处理。

猜你喜欢

转载自blog.csdn.net/initiallht/article/details/124913247

大数据生态体系产品(1) - Hive的架构与执行过程

大数据生态体系产品(2) - Spark的架构与原理

大数据生态体系产品(3) - HBase的架构与高性能存储

hive架构及执行过程

【原创】大数据基础之Hive（1）Hive SQL执行过程

【原创】大数据基础之Hive（2）Hive SQL执行过程之SQL解析过程

Hive的体系结构之HQL的执行过程

Hive体系结构之HQL执行过程

大数据之（4）Hadoop生态系统体系架构及基本概念

阿里巴巴飞天大数据架构体系与Hadoop生态系统

大数据技术#1 大数据技术生态体系

大数据生态系统基础： HIVE（二）：HIVE 架构和HiveQL基本操作

大数据架构及技术体系

大数据BigData之hive的执行过程是怎么样的？（概括）

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】

HIVE体系架构

大数据技术生态体系

Greenplum生态体系架构

Hive命令的执行过程

大数据学习笔记44：Hive架构

大数据-hive理论(1)

大数据:hive1

大数据结构生态体系

大数据工程师 Hadoop生态技术架构

hive 数据体系构建与应用的使用过程

数据库基础架构一条SQL查询语句的执行过程

Apache Hive 的 SQL 执行架构

大数据技术学习笔记之hive框架基础1-基本架构及环境部署

企业大数据平台技术体系架构

好程序员分享大数据的架构体系

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)