Spark Streaming算子:foreachRDD(func) - 代码天地

Spark Streaming算子:foreachRDD(func)

其他 2019-03-18 16:31:11 阅读次数: 0

背景

对流生成的每个RDD应用函数func。这个函数应该将每个RDD中的数据推送到外部系统，例如将RDD保存到文件中，或者通过网络将其写入数据库。请注意，函数func是在运行流应用程序的驱动程序进程中执行的，其中通常会有RDD操作，这将强制流RDDs的计算。

foreacheRDD使用

dstream.foreachRDD { rdd =>
  val connection = createNewConnection()  // executed at the driver
  rdd.foreach { record =>
    connection.send(record) // executed at the worker
  }
}

注意

因为在Spark  driver端创建连接对象,
这样每次连接要序列化发送到work端
不能够跨机器传输,这样会报:初始化错误,连接错误
正确的做法是在work端创建连接

如下,但是这样会出现一个问题就是每次记录创建一个新的连接.而创建连接会消耗时间和资源.因此，为每个记录创建和销毁连接对象会导致不必要的高开销，并会显著降低系统的总体吞吐量.

dstream.foreachRDD { rdd =>
  rdd.foreach { record =>
    val connection = createNewConnection()
    connection.send(record)
    connection.close()
  }
}

最优化做法:使用rdd.foreachPartition——创建一个连接对象，并使用该连接发送RDD分区中的所有记录。


dstream.foreachRDD { rdd =>
  rdd.foreachPartition { partitionOfRecords =>
    val connection = createNewConnection()
    partitionOfRecords.foreach(record => connection.send(record))
    connection.close()
  }
}

猜你喜欢

转载自blog.csdn.net/huonan_123/article/details/86771990

Spark Streaming算子:foreachRDD(func)

spark streaming foreachRDD 使用

Spark Streaming 的foreachRDD使用

Spark Streaming 之foreachRDD 输出

Spark Streaming foreachRDD的正确使用方式

Spark Streaming之妙用foreachRDD和foreachPartition

Spark Streaming（WordCount、Window、ForEachRDD练习）

spark俩个重要算子 transform foreachRDD

Spark Streaming 算子:reduceByKeyAndWindow

Spark Streaming算子:transform

spark streaming DStream算子大全

Spark Streaming算子篇详解

《Spark Streaming 编程指南之foreachRDD设计模式》

Spark Streaming快速入门系列(5) | foreachRDD输出

【Spark Streaming】（三）DStream 算子详解

Spark学习笔记：Spark Streaming算子开发实例

Spark: Spark Streaming

Spark------Spark Streaming

[Spark]-Spark streaming

【SPARK】Spark Streaming简介

Spark Streaming

spark算子

【Spark】算子

spark 算子

[Spark][spark_streaming]#5_spark_streaming&spark_sql

Spark Streaming之妙用foreachRDD和foreachPartition —— 在foreachPartition去中去创建socket是明智的做法，直接rdd是有问题的

spark学习笔记：Spark Streaming

Spark学习之Spark Streaming

Spark学习笔记： Spark Streaming

Spark --------Spark Streaming 集成 Kafka

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)