Spark -------- SparkStreaming介绍、工作原理及性能优化

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/qq_39141486/article/details/99082841

Spark Streaming运行架构图

离线和实时两部分
在这里插入图片描述

SparkStreaming运行工作原理

  batchInterval:批处理时间间隔

    通过创建StreamingContext实例对象的时候进行设置
    表明每次处理数据时间间隔,RDD

  blockInterval:每个Block时间间隔

    启动Streaming应用的时候,将启动Receiver用于接收数据
    按照blockInterval将数据划分为Block,
    默认blockInterval为200ms

性能优化

在这里插入图片描述
对于SparkStreaming实时流式数据
每个批次处理的时间 小于等于 batchInterval时间
如果大于,需要考虑优化程序
每批次的数据RDD在执行,可以增加RDD分区数,增加Task数目,在资源充足的情况下,增加并行执行Task数目
优化点
减少blockInterval的值,比如设置为100ms
spark.streaming.blockInterval

猜你喜欢

转载自blog.csdn.net/qq_39141486/article/details/99082841