版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
Spark Streaming运行架构图
离线和实时两部分
SparkStreaming运行工作原理
batchInterval:批处理时间间隔
通过创建StreamingContext实例对象的时候进行设置
表明每次处理数据时间间隔,RDD
blockInterval:每个Block时间间隔
启动Streaming应用的时候,将启动Receiver用于接收数据
按照blockInterval将数据划分为Block,
默认blockInterval为200ms
性能优化
对于SparkStreaming实时流式数据
每个批次处理的时间 小于等于 batchInterval时间
如果大于,需要考虑优化程序
每批次的数据RDD在执行,可以增加RDD分区数,增加Task数目,在资源充足的情况下,增加并行执行Task数目
优化点
减少blockInterval的值,比如设置为100ms
spark.streaming.blockInterval