大数据Hive系列之Hive MapReduce - 代码天地

大数据Hive系列之Hive MapReduce

其他 2018-11-02 22:10:05 阅读次数: 0

1. JOIN

1.1 join操作

INSERT OVERWRITE TABLE pv_users 
SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.userid = u.userid);

1.2 MR过程

Map

a. 以 JOIN ON 条件中的列作为 Key，如果有多个列，则 Key 是这些列的组合。
b. 以 JOIN 之后所关心的列作为 Value，当有多个列时，Value 是这些列的组合。
在 Value 中还会包含表的 Tag 信息，用于标明此 Value 对应于哪个表。
c. 按照 Key 进行排序。

Shuffle

根据 Key 的值进行 Hash，并将 Key/Value 对按照 Hash 值推至不同对 Reduce 中。

Reduce

Reduce根据 Key 值进行 Join 操作，并且通过 Tag 来识别不同的表中的数据。

1.3 MR过程图

2. GROUP BY

2.1 group by操作

SELECT pageid, age, count(1) FROM pv_users GROUP BY pageid, age;

2.2 MR过程图

3. DISTINCT

3.1 distinct操作

SELECT age, count(distinct pageid) FROM pv_users GROUP BY age;

3.2 MR过程图

猜你喜欢

转载自blog.csdn.net/volitationLong/article/details/82627510

大数据Hive系列之Hive MapReduce

大数据（MapReduce的编程细节及其Hive的安装，简单操作）

从零开始大数据--Hadoop、HDFS、MapReduce、HBase、Hive

Hive系列之HSQL转换成MapReduce过程

大数据系列之MapReduce的shuffle原理

hive mapreduce split 合并

MapReduce,hive, sparkcore, sparksql,

mapreduce和hive

【MapReduce、Hive】课堂测试

mapreduce 和hive 的区别

hive(基于mapreduce)的安装

hive(基于mapreduce)的使用

hive（3）——使用mapreduce

mapReduce和hive的联系

MapReduce系列之MapReduce的输出

MapReduce系列之MapReduce的输入

大数据Hive系列之Hive API

MapReduce Hive 导入数据到 HBase

Hive的存储和MapReduce处理——数据清洗

大数据培训之核心知识点Hbase、Hive、Spark和MapReduce的概念理解、特点及机制等

大数据学习之MapReduce

大数据技术原理与应用4MapReduce、数据仓库Hive、Hadoop再探讨

大数据面试必问-快速理解Hive的数据存储格式及mapreduce底层原理

执行hive时 mapreduce报错

Mapreduce,Hive,Spark平台搭建

hive sql 转化mapreduce原理

hive mapreduce reducer 调优

Hive查询不走MapReduce

【Hadoop/Hive/mapreduce】系列之使用union all 命令之后如何对hive表格使用python进行去重

大数据前期入门全总结（hdfs,MapReduce,hive,sqoop,hbase,flume）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)