Spark中Map、Shulffe、Reduce的含义解释

其他 2018-06-19 01:57:26 阅读次数: 2

初入spark门，会出现这些名词，半年了我表示都没有很名表这些词的意思，在具体工作中指代什么环节。今天看了这个博客突然顿悟....摘下重点。

1.Map阶段

读取源表的数据，Map输出时候以Join on条件中的列为key，如果Join有多个关联键，则以这些关联键的组合作为key;
Map输出的value为join之后所关心的(select或者where中需要用到的)列；同时在value中还会包含表的Tag信息，用于标明此value对应哪个表；按照key进行排序。可以理解为将数据排列准备好，便于下一步操作。

2.Shuffle阶段

根据key的值进行hash,并将key/value按照hash值推送至不同的reduce中，这样确保两个表中相同的key位于同一个reduce中。

3.Reduce阶段

根据key的值完成join操作，期间通过Tag来识别不同表中的数据。

SELECT 
 a.id,a.dept,b.age 
FROM a join b 
ON (a.id = b.id);

参考博客：

1.http://lxw1234.com/archives/2015/06/313.htm

猜你喜欢

转载自blog.csdn.net/pearl8899/article/details/80455378

Spark中Map、Shulffe、Reduce的含义解释

名词解释-物体检测中的mAP含义

如何形象地解释 JavaScript 中 map、foreach、reduce 间的区别？

Spark RDD Map Reduce 基本操作

python和hadoop(spark)的map/reduce

Spark streaming storm map reduce区别与联系

【Linux】系统内核中System.map中字段含义解释

Map/Reduce中的Partiotioner使用

Map/Reduce中的Combiner的使用

Python中的map_reduce

Python中map/reduce的用法

Python 中的 Map&Reduce

map-reduce中的组件

Spark中reduce和reducebykey

Kotlin中的【 ? ，?. ，?: ，!! ，filterNotNull 】含义解释

Spark distinct中numTasks含义

Spark API 详解/大白话解释之 reduce、reduceByKey

Spark中map与flatMap

Spark RDD API详解(一) Map和Reduce

【Spark四十七】Hadoop Map Shuffle Reduce的过程

Spark RDD API详解之：Map和Reduce

Python中的map和reduce函数简介

eclipse中运行Map/Reduce程序

js 中 map , foreach , reduce 的区别

Python中map和reduce函数

Yarn中的Map和Reduce的优化

关于JavaScript中map和reduce的分析

java8中的map和reduce

js中map和reduce的用法

Python中filter、map、reduce、lambda 的用法

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)