Spark Streaming算子:foreachRDD(func)

背景

对流生成的每个RDD应用函数func。这个函数应该将每个RDD中的数据推送到外部系统,例如将RDD保存到文件中,或者通过网络将其写入数据库。请注意,函数func是在运行流应用程序的驱动程序进程中执行的,其中通常会有RDD操作,这将强制流RDDs的计算。

foreacheRDD使用

dstream.foreachRDD { rdd =>
  val connection = createNewConnection()  // executed at the driver
  rdd.foreach { record =>
    connection.send(record) // executed at the worker
  }
}

注意

因为在Spark  driver端创建连接对象,
这样每次连接要序列化发送到work端
不能够跨机器传输,这样会报:初始化错误,连接错误
正确的做法是在work端创建连接

  1. 如下,但是这样会出现一个问题就是每次记录创建一个新的连接.而创建连接会消耗时间和资源.因此,为每个记录创建和销毁连接对象会导致不必要的高开销,并会显著降低系统的总体吞吐量.
dstream.foreachRDD { rdd =>
  rdd.foreach { record =>
    val connection = createNewConnection()
    connection.send(record)
    connection.close()
  }
}

  1. 最优化做法:使用rdd.foreachPartition——创建一个连接对象,并使用该连接发送RDD分区中的所有记录。

dstream.foreachRDD { rdd =>
  rdd.foreachPartition { partitionOfRecords =>
    val connection = createNewConnection()
    partitionOfRecords.foreach(record => connection.send(record))
    connection.close()
  }
}

猜你喜欢

转载自blog.csdn.net/huonan_123/article/details/86771990