Spark中Map、Shulffe、Reduce的含义解释

初入spark门,会出现这些名词,半年了我表示都没有很名表这些词的意思,在具体工作中指代什么环节。今天看了这个博客突然顿悟....摘下重点。

1.Map阶段

读取源表的数据,Map输出时候以Join on条件中的列为key,如果Join有多个关联键,则以这些关联键的组合作为key;
Map输出的value为join之后所关心的(select或者where中需要用到的)列;同时在value中还会包含表的Tag信息,用于标明此value对应哪个表;按照key进行排序。可以理解为将数据排列准备好,便于下一步操作。

2.Shuffle阶段

根据key的值进行hash,并将key/value按照hash值推送至不同的reduce中,这样确保两个表中相同的key位于同一个reduce中。

3.Reduce阶段

根据key的值完成join操作,期间通过Tag来识别不同表中的数据。

SELECT 
 a.id,a.dept,b.age 
FROM a join b 
ON (a.id = b.id);


参考博客:

1.http://lxw1234.com/archives/2015/06/313.htm

猜你喜欢

转载自blog.csdn.net/pearl8899/article/details/80455378