SparkStreaming（6）：实例-统计到目前为止累积出现的单词的个数（updateStateByKey） - 代码天地

SparkStreaming（6）：实例-统计到目前为止累积出现的单词的个数（updateStateByKey）

其他 2018-10-20 19:50:39 阅读次数: 0

1.实现功能

现实中，不仅需要统计，当前批次的单词个数，还需要统计，迄今为止的总的单词个数。这个就是需要，使用到updateStateByKey算子。

【参考：http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html】

2.代码

package Spark

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * 使用spark streaming完成迄今为止所有累计单词的个数
  */
object StatefulWordcount {
  def main(args: Array[String]): Unit = {

    val sparkConf=new SparkConf().setAppName("StatefulWordcount").setMaster("local[2]")

    val ssc=new StreamingContext(sparkConf,Seconds(5))
    //如果使用了stateful的算子，必须要设置checkpoint
    //在生产过程中，建议把这个放到hdfs上
    //自己没设置，也没事
    ssc.checkpoint(".")

    val lines: ReceiverInputDStream[String] =ssc.socketTextStream("bigdata.ibeifeng.com",6789)
    val results: DStream[(String, Int)] =lines.flatMap( _.split(" "))
      .map((_,1))    //.reduceByKey(_+_)

    val state: DStream[(String, Int)] =results.updateStateByKey[Int](updateFunction _)

    state.print()

    ssc.start()
    ssc.awaitTermination()
  }
  //from:http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html
  /**
    * 把当前的数据去更新已有的数据
    * @param CurrentValues 新的的
    * @param PreValues 以前的
    * @return
    */
  def updateFunction(CurrentValues: Seq[Int], PreValues: Option[Int]): Option[Int] = {
    val current = CurrentValues.sum //...  // add the new values with the previous running count to get the new count
    val pre=PreValues.getOrElse(0)
    Some(current+pre)
  }

}

3.测试

(1)启动nc -lk 6789，输入测试数据
(2)结果
       (fsd,1)
       (ewrd,1)
       (vsdf,1)
       (,1)

猜你喜欢

转载自blog.csdn.net/u010886217/article/details/83002670

SparkStreaming（6）：实例-统计到目前为止累积出现的单词的个数（updateStateByKey）

学习到目前为止，都接触过了哪些异常，分别在什么情况下会出现

2018-3-17——对于到目前为止的学习的总结

ColorPix——到目前为止最好用的屏幕取色器

2019 到目前为止的深度学习研究进展汇总

laravel + memcache 截止到目前为止12小时内的数据

练习一获取一个人到目前为止出生的天数

实时数仓(三)需求1 ：全量统计到目前为止查询城市、省份、订单总额、订单总数

Apple iPad 2020和iPad Pro 2020：到目前为止我们所知道的

目前为止的完整面试

目前为止最全的微信小程序项目实例

目前为止最全的微信小程序项目实例源码

UE4/5C++多线程插件制作（六、添加同步线程接口，对MTPManage进行加锁，确保线程安全，到目前为止的全部代码）

目前为止时间都是13位的

目前为止全网最全的 SpringBoot 参数传递方案

目前为止我用到的VScode快捷键

目前为止 DAO靠什么盈利？

截止目前为止，我遇到的最难的一道算法题：计算相邻两个数的最大差值

微信小程序之目前为止史上最全的微信小程序项目实例，微信小程序实战学习

目前为止小程序审核不通过原因整理汇总

获取中文拼音的首字母，目前为止小菜看到的最简单的方法

小程序框架 Wepy -- 记录目前为止遇到的坑

目前为止，在图像缩放项目遇到的一些坑

目前为止Unity包含的动画系统（简单随笔，没时间总结） 2019.1.24

闰年的判断方法和当目前为止你生存的天数计算方法

MIUI目前为止最简单安装谷歌服务框架教程

目前为止最完善专业的微信小程序商城

目前为止最详细的生命周期评估SimaPro应用教程

【收藏】目前为止，我能给你总结到的所有ChatGPT

新手入门：目前为止最透彻的的Netty高性能原理和框架架构解析(阿里) 新手入门：目前为止最透彻的的Netty高性能原理和框架架构解析

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)