Spark学习笔记（14）——Spark Streaming 数据累加的案例

其他 2018-11-06 04:00:04 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u012292754/article/details/83341924

1 源码

package mystreaming

import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object AccWordcount {


  /*
  * (hello,1),(hello,1),(tom,1)
  * (hello,Seq(1,1)),(tom,Seq(1))
  * Option[Int],以前的结果
  * Seq 这个批次某个单词的次数
  *
  * */
  val func = (iter: Iterator[(String, Seq[Int], Option[Int])]) => {

    //iter.map{case(word,current_count,history_count) => (word,current_count.sum + history_count.getOrElse(0)) }
    //iter.map(t=>(t._1,t._2.sum + t._3.getOrElse(0)))
    //iter.flatMap(it=>Some(it._2.sum + it._3.getOrElse(0)).map(x=>(it._1,x)))
    iter.flatMap { case (x, y, z) => Some(y.sum + z.getOrElse(0)).map(m => (x, m)) }

  }


  def main(args: Array[String]): Unit = {
    LoggerLevels.setStreamingLogLevels()

    val conf = new SparkConf().setAppName("AccWordCount").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val ssc = new StreamingContext(sc, Seconds(5))


    /*
    * updateStateByKey 必须设置 checkpoint
    * */
    sc.setCheckpointDir("d://checkpoint")

    //接收数据
    val ds = ssc.socketTextStream("node1", 8888)
    //DStream 是一个特殊的 RDD
    val result = ds.flatMap(_.split(" ")).map((_, 1)).updateStateByKey(func,new HashPartitioner(sc.defaultParallelism),true)

    result.print()

    ssc.start()

    ssc.awaitTermination()
  }
}

2 测试

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/u012292754/article/details/83341924

Spark学习笔记（14）——Spark Streaming 数据累加的案例

Spark学习笔记（13）——Spark Streaming 案例

Spark学习笔记：Spark Streaming数据存储与调优

Spark Streaming 实战 WordCount（累加）

spark学习笔记：Spark Streaming

Spark学习笔记： Spark Streaming

大数据-Spark Streaming

Spark Streaming学习笔记

大数据学习笔记（六）-spark streaming demo 运行【原创】

案例实战Spark Streaming处理socket数据

Spark Streaming进阶与案例实战

Spark Streaming介绍以及案例

Spark Streaming 进阶与案例实战

Spark学习（拾）- Spark Streaming进阶与案例实战

spark基于Streaming的累加器（updateStateByKey）

spark的累加器-SQL-Streaming

大数据实时计算Spark学习笔记（11）—— Spark Streaming

大数据学习笔记之spark及spark streaming----快速通用计算引擎

spark streaming消费flume数据

【大数据】【Spark】 Streaming基础

Spark Streaming数据限流简述

Spark Streaming 数据限流简述

Spark Streaming分析Kafka数据

学习笔记：Spark Streaming的核心

Spark学习笔记（三）-Spark Streaming

spark streaming 笔记

Spark Streaming笔记

Spark Streaming

Spark-Streaming hdfs count 案例

Spark-Streaming kafka count 案例

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)