flink学习（1）简介

此系列是个人学习是记录笔记

flink 是什么

Apache Flink is a framework and distributed processing engine for statuful co mputations over unbounded and bounded data streams.

Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行状态计算

flink优点

流数据更真实反应生活方式。传统数据架构是基于有限数据集的低延迟高吞吐结果的准确性和良好的容错性

传统数据处理架构

1.事务处理:oltp

2.分析处理:olap

前者快但是对数据库压力大数据量级大的情况下处理不了。后者离线计算再打的量级也能处理两者优点结合

有状态的流失处理以内存代替传统关系型数据库

这里的peridic checkpoint 指的是存在远程的快照防止数据存在内存各种因素丢失

以上就是storm的框架第一代流失处理引擎毫秒级别延迟 storm 的问题是并发性不够多节点的情况下可能出现数据乱序（不同节点）所以 storm 是以牺牲了准确性和并发性为代价降低了吞吐

后来就有了 lambda结构即把流处理和批处理两套系统合并最后用户获得的数据效果是先快速获得一些数据等一会后通过merge 会做数据的更新

但lambda的问题是太过繁琐最后就有了 flink 实现了高吞吐低延迟时间正确操作简单在压力下保持正确

flink的主要特点 1.事件驱动（event-driven) 2.基于流的世界观在flink的世界观中，一切都是流，离线数据是有界的流；实时数据是没有界的流 3.分层api 越顶层越抽象，表达含义越简明，使用越方便。越底层越具体，表达能力越丰富，使用越灵活

4.支持事件时间（event-time）和处理时间（processing-time）语义5.exactly once 6.低延迟每秒数百万个事件毫秒级延迟7.与众多常用存储系统的连接 8.高可用，动态扩展，实现7*24小时全天候运行

flink学习（1） 简介