Flink中的keyby分流与window操作 - 代码天地

Flink中的keyby分流与window操作

其他 2019-03-04 09:41:06 阅读次数: 0

版权声明：版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/lijingjingchn/article/details/87605585

1. Stream分流

Window是无限数据流处理的核心，Window将一个无限的stream拆分成有限大小的”buckets”桶，我们可以在这些桶上做计算操作。
　　窗口化的Flink程序的一般结构如下，第一个代码段中是分组的流，而第二段是非分组的流。正如我们所见，唯一的区别是分组的stream调用keyBy(…)和window(…)，而非分组的stream中window()换成了windowAll(…)，这些也将贯穿都这一页的其他部分中。

Keyed Windows

stream.keyBy(...)          <-  keyed versus non-keyed windows
       .window(...)         <-  required: "assigner"
      [.trigger(...)]       <-  optional: "trigger" (else default trigger)
      [.evictor(...)]       <-  optional: "evictor" (else no evictor)
      [.allowedLateness()]  <-  optional, else zero
       .reduce/fold/apply() <-  required: "function"

Non-Keyed Windows

stream.windowAll(...)      <-  required: "assigner"
      [.trigger(...)]       <-  optional: "trigger" (else default trigger)
      [.evictor(...)]       <-  optional: "evictor" (else no evictor)
      [.allowedLateness()]  <-  optional, else zero
       .reduce/fold/apply() <-  required: "function"

在上面的例子中，方括号[]内的命令是可选的，这表明Flink允许你根据最符合你的要求来定义自己的window逻辑。

2. Keyed vs Non-Keyed Windows

首先，第一件事是指定你的数据流是分组的还是未分组的，这个必须在定义 window 之前指定好。使用 keyBy(…) 会将你的无限数据流拆分成逻辑分组的数据流，如果 keyBy(…) 函数不被调用的话，你的数据流将不是分组的。

在分组数据流中，任何正在传入的事件的属性都可以被当做key(更多详情请见:https://ci.apache.org/projects/flink/flink-docs-release-1.3/dev/api_concepts.html#specifying-keys )，分组数据流将你的window计算通过多任务并发执行，以为每一个逻辑分组流在执行中与其他的逻辑分组流是独立地进行的。

在非分组数据流中，你的原始数据流并不会拆分成多个逻辑流并且所有的window逻辑将在一个任务中执行，并发度为1。

参考：https://www.cnblogs.com/felixzh/p/9698073.html

猜你喜欢

转载自blog.csdn.net/lijingjingchn/article/details/87605585

Flink中的keyby分流与window操作

Flink中对keyBy的探究

Flink的keyby延时源码

Flink / Scala 实战 - 20.keyBy 后 window 数据倾斜实战

Flink之keyBy开窗实战

聊聊flink的window操作

Flink的window操作&watermarks

Flink的 Window 操作

Flink中的Time与Window

Flink 中的 Window (窗口)

Flink 的Window 操作（基于flink 1.3描述）

Flink的window操作之Window Functions(二)

Flink 基本算子map、keyBy、sum、reduce

flink keyBy后滚动聚合报错

flink Side OutPut 分流

Flink中Time&Window

如何理解Flink中Window？

Flink读取Kafka数据，进行流处理APi操作（wordcount，分流，合流）

FlinK KeyBy分布不均匀问题的总结思考

Flink / Scala - 21.KeyedStream KeyBy 源码分析

Flink中的算子操作

Flink笔记(十三)：Flink中Time 和 Window 介绍

flink window

[Flink]Flink的window介绍

flink的神奇分流器-sideoutput

flink学习笔记-split & select(拆分流)

Flink使用SideOutPut替换Split实现分流

[flink]如何使用 Side Output 来分流?

Flink进阶（一）：Side Output 分流的使用

flink中对于window和watermark的一些理解

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)