Spark Streaming单个batch作业的执行流程

在这里插入图片描述

1、客户端提交作业后，启动Driver，Driver是Spark作业的Master（也就是通过Driver来启动Receiver，定时去启动任务的处理，注意的是，驱动启动任务会受前一个任务执行的影响。也就是前一个任务没有执行完成后，是不会启动后边的任务的。所以，注意你的streaming的执行时间，绝对不要超过Recive数据的时间）

2、每个作业包含多个Executor，每个Executor以线程的方式运行task，Spark Streaming至少包含一个Receiver task。（一个Executor就是一个spark进程，在yarn中就是一个container，这个大家应该知道。然后Receiver task是在driver中创建的，我理解一个Receiver是运行在一个Executor中的。然后如果想要创建多个Receiver，那么需要大概这样做(1 to 10).map(_.createStream…)，这样就能创建10个receiver task啦。注意这个数量当然不能超过你的结点数量啦。还有个问题，通常使用kafka比较合适，因为kafka是stream向kafka来poll数据。而他妈的flume默认只支持pull，如果想支持poll，那需要定制sink，那真是太恶心了。）

3、Receiver接收数据后生成Block，并把BlockId汇报给Driver，然后备份到另外一个Executor上。（默认情况下接受数据是200毫秒生成一个block，我理解一个block应该是一个partition?这个还不确定，需要对照源代码看一下；然后会把生成的Block随机扔到不同的Executor，同时，driver去派发任务时，也会找到就近的Executor。我理解，节点中的所有executor都应该会有数据才对）

4、ReceiverTracker维护Receiver汇报的BlockId。（这个ReceiverTracker应该是维护在Driver中，Driver会根据维护的这些数据块进行任务的派发）

5、Driver定时生成JobGenerator，根据DStream的关系生成逻辑RDD，然后创建Jobset，交给JobScheduler。

6、JobScheduler负责调度Jobset，交给DAGScheduler，DAGScheduler根据逻辑RDD，生成相应的Stages，每个stage包含一到多个task。（我记得DAGScheduler会对任务做一层优化）

7、TaskScheduler负责把task调度到Executor上，并维护task的运行状态。

8、当tasks，stages，jobset完成后，单个batch才算完成。

Alwaysdazz

发布了124 篇原创文章 · 获赞 0 · 访问量 7890

私信关注

Spark Streaming单个batch作业的执行流程

猜你喜欢