Spark Streaming通过receiver方式消费kafka数据时数据积压问题

其他 2018-12-28 09:31:07 阅读次数: 0

1.问题
在通过receiver方式接受kafka消息时，发现有大量消息在队列中阻塞最终导致spark任务执行失败。
经过排查发现，利用receiver方式来消费kafka的数据时可能会因为zk的group是首次创建或者有一段时间未消费，在程序启动的时候一次性读取进来大量的数据导致数据积压严重报错oom或者yarn资源不够而崩溃，可以通过设置最大批次的数据量来调节。

2.解决办法
这里可以通过一个参数来解决，receiver方式的数据积压问题。

 --conf spark.streaming.kafka.maxRatePerPartition=10000

限制每个批次读取进来的最大数据量，来平稳的读取积压的数据

3.计算每个批次数据的数量
总数=maxRatePerPartition*partitions（分区数）*bachTime（批次时间，单位是s）

转载：https://blog.csdn.net/weixin_39911113/article/details/80268467

猜你喜欢

转载自blog.csdn.net/sinat_36710456/article/details/85229234

Spark Streaming通过receiver方式消费kafka数据时数据积压问题

[Spark]Spark-streaming通过Receiver方式实时消费Kafka流程（Yarn-cluster）

Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式

Spark Streaming连接Kafka的两种方式 direct 跟receiver 方式接收数据的区别

Spark Streaming消费Kafka的数据进行统计

Spark-Streaming获取kafka数据的两种方式：Receiver与Direct

Spark Streaming整合Kafka，Mysql，实时保存数据到Mysql(基于Receiver的方式)

通过Spark Streaming作业处理Kafka数据

Spark Streaming采用Direct Approach（No Receiver）方式连接Kafka消费消息时报错

大数据之Spark（六）--- Spark Streaming介绍，DStream，Receiver，Streamin集成Kafka，Windows，容错的实现

Spark 消费Kafka数据

spark streaming消费flume数据

学习笔记 --- Kafka Spark Streaming获取Kafka数据 Receiver与Direct的区别

Spark Streaming消费Kafka Direct方式数据零丢失实现

Spark Streaming分析Kafka数据

spark streaming从指定offset处消费Kafka数据

Spark Streaming消费Kafka数据的两种方案

Spark Streaming 消费kafka数据出现No current assignment for partition崩溃

Spark Streaming 项目实战 (2) | 从 Kafka中消费数据

Spark Streaming消费kafka示例

kafka通过spark-streaming往hbase里写数据

Spark Streaming场景应用-Kafka数据读取方式

Spark Streaming 读取 Kafka 数据的两种方式

spark-streaming获取kafka数据的两种方式

Spark Streaming读取kafka数据方式的优化对比

Spark-streaming kafka数据接收两种方式

spark streaming 消费kafka两种方式的对比

Spark-Streaming获取kafka数据的两种消费模式、三种消费语义

Spark Streaming 读取Kafka数据写入ES

Spark Streaming实时处理Kafka数据

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)