Flink window详解

什么是窗口?

在这里插入图片描述

  • 一般真实的流都是无界的,怎样处理无界的数据?
  • 可以把无限的数据流进行切分,得到有限的数据集进行处理一也就是得到有界流
  • 窗口(window) 就是将无限流切割为有限流的一种方式,它会将流数据分发到有限大小的桶(bucket) 中进行分析

窗口类型

时间窗口(Time Window)

  • 滚动时间窗C]
  • 滑动时间窗口
  • 会话窗口

计数窗口(Count Window)

  • 滚动计数窗口
  • 滑动计数窗口

滚动窗口

在这里插入图片描述

  • 将数据依据固定的窗度长度对数据进行切分
  • 时间对齐,窗口长度固定,没有重叠

滑动窗口

在这里插入图片描述

  • 将数据依据固定的窗C长度对数据进行切分
  • 时间对挤,窗口长度固定,没有重叠

会话窗口

在这里插入图片描述

  • 由一系列事件组合一一个指定时间长度的timeout间隙组成,也就是一段时间没有接收到新数据就会生成新的窗口
  • 特点:时间无对挤

窗口API

  • 窗口分配器->window()方法
  • 我们可以用.window()来定义一个窗口,然后基于这个window去做一些聚合或者其它处理操作。注意window()方法必须在keyBy之后才能用。
  • link 提供了更加简单的.timeWindow和.countWindow方法,用于定义时间窗口和计数窗口。

窗口分配器(window assigner)

  • window() 方法接收的输入参数是一个 WindowAssigner
  • WindowAssigner负责将每条输入的数据分发到正确的window中
  • Flink 提供了通用的WindowAssigner
    滚动窗口(tumbling window)
    滑动窗口(sliding window)
    会话窗口(session window)
    全局窗口(global window)

创建不同类型的窗口

  • 滚动时间窗口(tumbling time window)
//方式一
.window(TumblingEventTimeWindows.of(Time.seconds(15)))
//方式二
.timeWindow(Time.seconds(15))
  • 滑动时间窗口(sliding time window)
//窗口长度15秒,滑动步长5秒

//方式一
.window( SlidingProcessingTimeWindows.of(Time.seconds(10),Time.seconds(3)))
//方式二
.timeWindow(Time.seconds(15),Time.seconds(5))
  • 会话窗口(session window)
//会话时长10分钟
.window(EventTimeSessionWindows.withGap(Time.minutes(10))
  • 滚动计数窗口
//计数10条
.countWindow(10)
  • 滑动计数窗口
//计数10条,滑动2条
.countWindow(102)

窗口函数

  • window function定义了要对窗口中收集的数据做的计算操作
  • 可以分为两类
  1. 增量聚合函数(incremental aggregation functions)
    每条数据到来就进行计算,保持-个简单的状态
    ReduceFunction, AggregateFunction
  2. 全窗口函数(full window functions)
    先把窗C ]所有数据收集起来,等到计算的时候会遍历所有数据
    ProcessWindowFunction

其他API

  • trigger()触发器:定义window什么时候关闭,触发计算并输出结果
  • evictor()移除器:定义移除某些数据的逻辑
  • allowedLateness()允许处理迟到的数据
  • sideOutputLateData()将迟到的数据放入侧输出流
  • getSideOutput()获取侧输出流

猜你喜欢

转载自blog.csdn.net/weixin_38468167/article/details/112006688