spark streaming scala-updateStateByKey 进行key的累加统计 - 代码天地

spark streaming scala-updateStateByKey 进行key的累加统计

其他 2018-05-16 22:29:54 阅读次数: 2

updateStateByKey 解释:
以DStream中的数据进行按key做reduce操作，然后对各个批次的数据进行累加
在有新的数据信息进入或更新时，可以让用户保持想要的任何状。使用这个功能需要完成两步：
1) 定义状态：可以是任意数据类型
2) 定义状态更新函数：用一个函数指定如何使用先前的状态，从输入流中的新值更新状态。

对于有状态操作，要不断的把当前和历史的时间切片的RDD累加计算，随着时间的流失，计算的数据规模会变得越来越大。

具体看代码

import org.apache.spark.SparkConf
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.Seconds

/**
 * @author jhp
  *         spark streaming 保持key的状态统计
 */
object UpdateStateByKeyWordCount {
  
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
        .setMaster("local[2]")  
        .setAppName("UpdateStateByKeyWordCount")
    val ssc = new StreamingContext(conf, Seconds(5))
    ssc.checkpoint("hdfs://spark1:9000/wordcount_checkpoint")  
    
    val lines = ssc.socketTextStream("spark1", 9999)
    val words = lines.flatMap { _.split(" ") }   
    val pairs = words.map { word => (word, 1) }
    //前一次的key的数量和后一次key的数量的统计
    val wordCounts = pairs.updateStateByKey((values: Seq[Int], state: Option[Int]) => {
      var newValue = state.getOrElse(0)    
      for(value <- values) {
        newValue += value
      }
      Option(newValue)  
    })
    
    wordCounts.print()  
    
    ssc.start()
    ssc.awaitTermination()
  }
  
}

猜你喜欢

转载自blog.csdn.net/qq_18603599/article/details/79970412

spark streaming scala-updateStateByKey 进行key的累加统计

spark基于Streaming的累加器（updateStateByKey）

spark streaming - scala统计hdfs

spark streaming updateStateByKey

Spark Streaming状态管理函数（二）——updateStateByKey的使用（scala版）

spark streaming - kafka updateStateByKey 统计用户消费金额

spark streaming scala-统计热门产品

【Spark八十八】Spark Streaming累加器操作（updateStateByKey)

[spark streaming] 状态管理 updateStateByKey&mapWithState

Spark Streaming之updateStateByKey和mapWithState比较

使用idea编写Spark Streaming_updateStateByKey

Spark Streaming 实战 WordCount（累加）

spark streaming scala -统计热门搜索词

Spark Streaming整合Kafka（scala）

Spark Streaming整合Flume（scala）

Spark Streaming消费Kafka的数据进行统计

spark从入门到放弃四十九:Spark Streaming(9)updateStateByKey

Spark --Spark Streaming实战 WordCount他来啦！！！ updateStateByKey reduceByKeyAndWindow

Spark Streaming 统计单词的例子

Spark Streaming词频统计实例

Spark Streaming和Spark SQL关联使用，实现词频统计（scala）

spark的累加器-SQL-Streaming

Spark Streaming状态管理函数（一）——updateStateByKey和mapWithState

《Spark Streaming 有状态wordCount示例（updateStateByKey的使用）》

Spark Streaming 中 updateStateByKey 模式代码实现演示（三）

spark streaming scala 过滤黑名单

Spark Streaming

Spark学习笔记（14）——Spark Streaming 数据累加的案例

Spark Streaming小程序试验-《单词统计》

使用Spark Streaming完成有状态统计

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)