SparkStreaming 窗口函数

企业开发 2018-06-03 19:32:13 阅读次数: 3

背景：

窗口函数包括2部分，一个是窗口长度，一个是滑动长度。

我们知道，SparkStreaming和Storm完全实时不同，它是每隔一段时间搞一次的，比如是5秒。

因此这里就产生3个概念：间隔、窗口长度、滑动距离

间隔：比如为5s,代表的是无论怎么样，SparkStreaming每5s从源处获取一次数据进行处理，至于展示不展示，这个它不管，因为这是由窗口函数决定的

窗口长度：就是每次展示时，到底显示几个间隔里面的内容。假如窗口长度设置为10s,则显示最近2个间隔里面的数据

滑动距离：就是到底在几个间隔后开始展示。注意滑动距离最好小于等于窗口长度，否则就会显示不全数据。注意：滑动长度也必须是间隔的整数倍，比如是5s.滑动长度的意思是2次计时的间隔。

为了讲清楚，下面画一个图，假设间隔为5s,一个格式代表5s.那么窗口长度为10s,滑动距离为5s的长度如下

代码如下

package scalapackage.testspark

import org.apache.spark.{HashPartitioner, SparkConf}
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * Created by Germmy on 2018/6/3.
  */
object WindowsTest {


  def main(args: Array[String]) {
    val sc=new SparkConf().setAppName("SparkStreamingWC").setMaster("local[2]")

    val ssc: StreamingContext = new StreamingContext(sc,Seconds(5))
    ssc.checkpoint("hdfs://node01:9000/ck-20180603")//针对SparkStreaming设置的checkpoint,在读文件后设置ck也可以

    val textStream: ReceiverInputDStream[String] = ssc.socketTextStream("192.168.92.142",8888)

    val dStream: DStream[(String, Int)] = textStream.flatMap(_.split(" ")).map((_,1))

    val key: DStream[(String, Int)] = dStream.reduceByKeyAndWindow((a:Int,b:Int)=>a+b,Seconds(10),Seconds(30))

    key.print(10)

    ssc.start()

    ssc.awaitTermination()
  }


}

猜你喜欢

转载自my.oschina.net/windows20/blog/1823463

SparkStreaming 窗口函数

SparkStreaming之窗口函数

SparkStreaming窗口函数的应用

SparkStreaming - 窗口函数（窗口操作）

sparkstreaming的reduceByKeyAndWindow窗口函数的用法

Spark ---------- SparkStreaming窗口函数的使用及性能优化

SparkStreaming中的窗口操作

069 在SparkStreaming的窗口分析

SparkStreaming 窗口操作

sparkStreaming窗口操作 SPARKSTREAMING--REDUCEBYKEYANDWINDOW

SparkStreaming（8）：windows窗口操作

SparkStreaming窗口操作经典案例

SparkStreaming

SparkStreaming(三) 窗口计算和Join操作

SparkStreaming（五）操作函数之Transformations

SparkStreaming（六）操作函数之Window Operations

SparkStreaming滑动计算窗口reduceByKeyAndWindow图解说明

大数据学习日志——粗看sparkstreaming滑动窗口源码

SparkStreaming-----SparkStreaming教程

SparkStreaming（七）操作函数之Join Operations、Output Operations

SparkStreaming小结

kafka SparkStreaming

初识SparkStreaming

SparkStreaming概述

SparkStreaming例题

sparkStreaming笔记

SparkStreaming的ck

SparkStreaming Guide

SparkStreaming概要

sparkStreaming的wordCount

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)