初入spark门,会出现这些名词,半年了我表示都没有很名表这些词的意思,在具体工作中指代什么环节。今天看了这个博客突然顿悟....摘下重点。
1.Map阶段
读取源表的数据,Map输出时候以Join on条件中的列为key,如果Join有多个关联键,则以这些关联键的组合作为key;Map输出的value为join之后所关心的(select或者where中需要用到的)列;同时在value中还会包含表的Tag信息,用于标明此value对应哪个表;按照key进行排序。可以理解为将数据排列准备好,便于下一步操作。
2.Shuffle阶段
根据key的值进行hash,并将key/value按照hash值推送至不同的reduce中,这样确保两个表中相同的key位于同一个reduce中。3.Reduce阶段
根据key的值完成join操作,期间通过Tag来识别不同表中的数据。
SELECT a.id,a.dept,b.age FROM a join b ON (a.id = b.id);
参考博客:
1.http://lxw1234.com/archives/2015/06/313.htm