excutor端,每个task消费一个partition。
1、dirct直接连接:即每个executor直接取kafka获取数据
(1)、首先Driver程序会定时(batchInterval)的向executor中发送任务(task)。
>> 问题1:为什么是4个任务?
>> 因为spark会对每个partition开启一个任务,所以任务数是kafka的某个topic的partition数。当每个任务确定了处理哪个partition中的数据,则就有任务task本身去kafka获取数据