spark、storm消费kafka为啥不阻塞?消费kafka运行在每个excutor,还是运行在driver?

excutor端,每个task消费一个partition。

1、dirct直接连接:即每个executor直接取kafka获取数据

(1)、首先Driver程序会定时(batchInterval)的向executor中发送任务(task)。

      >> 问题1:为什么是4个任务?

      >> 因为spark会对每个partition开启一个任务,所以任务数是kafka的某个topic的partition数。当每个任务确定了处理哪个partition中的数据,则就有任务task本身去kafka获取数据

发布了159 篇原创文章 · 获赞 75 · 访问量 19万+

猜你喜欢

转载自blog.csdn.net/xuehuagongzi000/article/details/102902425
今日推荐