Spark-Streaming的window滑动窗口及热点搜索词统计案例 - 代码天地

Spark-Streaming的window滑动窗口及热点搜索词统计案例

其他 2018-05-07 22:03:28 阅读次数: 4

 
  Spark Streaming提供了滑动窗口操作的支持，从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据，会被聚合起来执行计算操作，然后生成的RDD，会作为window DStream的一个RDD。比如下图中，就是对每三秒钟的数据执行一次滑动窗口计算，这3秒内的3个RDD会被聚合起来进行处理，然后过了两秒钟，又会对最近三秒内的数据执行滑动窗口计算。所以每个滑动窗口操作，都必须指定两个参数，窗口长度以及滑动间隔，而且这两个参数值都必须是batch间隔的整数倍。（Spark Streaming对滑动窗口的支持，是比Storm更加完善和强大的） 
 

 
   Transform：转换 
  

    window：对每个滑动窗口的数据执行自定义的计算 
  

    countByWindow：对每个滑动窗口的数据执行count操作 
  

    reduceByWindow：对每个滑动窗口的数据执行reduce操作 
  

    reduceByKeyAndWindow：对每个滑动窗口的数据执行reduceByKey操作 
  

    countByValueAndWindow：对每个滑动窗口的数据执行countByValue操作 
  

    案例： 
  

object WindowDemo {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org").setLevel(Level.WARN)
    val config = new SparkConf().setAppName("WindowDemo").setMaster("local[2]")
    //Seconds(1) 1秒创建一个RDD
    val ssc = new StreamingContext(config, Seconds(1))
    //(a: Int, b: Int) => a + b   a代表上一次累加的结果，b代表本次需要累加的元素
    //Seconds(3)  代表窗口的时间范围
    //Seconds(2)  代表窗口的滑动间隔
    ssc.socketTextStream("hadoop01", 8888).flatMap(_.split(" ")).map((_, 1)).reduceByKeyAndWindow(
      (a: Int, b: Int) => a + b, Seconds(3), Seconds(2)).print()
    ssc.start()
    ssc.awaitTermination()
  }
}

猜你喜欢

转载自blog.csdn.net/zmc921/article/details/75098670

Spark-Streaming的window滑动窗口及热点搜索词统计案例

Spark-Streaming之window滑动窗口应用

spark streaming scala -统计热门搜索词

48、Spark SQL之与Spark Core整合之每日top3热点搜索词统计案例实战

Spark Streaming之window滑动窗口详解

Spark-Streaming kafka count 案例

Spark-Streaming hdfs count 案例

Spark-Streaming

Spark-Streaming基础

spark streaming的window窗口操作

spark从入门到放弃五十一:Spark Streaming(11)window 滑动窗口

[1] - spark-streaming概述

spark-streaming实践代码

Spark-Streaming的学习使用

spark-Streaming窗口化和kafak-streaming 消费策略

Spark Streaming之window（窗口操作）

Spark-Streaming进阶与Spark优化

Spark-Streaming之transform操作，实时黑名单过滤案例

Spark-Streaming及其工作原理

入门Spark-Streaming遇到的问题

spark-streaming状态流之mapWithState

spark-streaming例子程序

spark-streaming 获取 flume 传递的header

spark-Streaming 存入多个HBase表

Spark-Streaming (组件篇二)

spark-streaming连接hive+HBase

spark2.x-java-用spark-sql和spark-streaming 统计网站的访客数(uv)

表格根据搜索词过滤

scala spark-streaming整合kafka （spark 2.3 kafka 0.10）

搜索词与关键词报告区别

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)