都是自己从网上搜集的一些自己感兴趣的东西

----------------------------------------------------------------------------------------------------------------------------------------

Apache Flink是一个面向分布式数据留处理和批量数据处理的开源计算平台，提供支持流处理和批处理两种类型应用的功能
Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. Flink has been designed to run in all common cluster environments, perform computations at in-memory speed and at any scale.
Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink设计为在所有常见的集群环境中运行，以内存速度和任何规模执行计算。
什么是有状态的计算?

计算任务的结果不仅仅依赖于输入，还依赖于它的当前状态，其实大多数的计算都是有状态的计算。比如wordcount,给一些word,其计算它的count,这是一个很常见的业务场景。count做为输出，在计算的过程中要不断的把输入累加到count上去，那么count就是一个 state。

在2008 年，Flink 是柏林理工大学一个研究性项目。在 2014 被 Apache 孵化器所接受，然后迅速地成为了 ASF（Apache Software Foundation）的顶级项目之一。

Flink兼备了spark的基于内存的快速计算，又实现了毫秒级的实时计算。并实现了很多更加方便快捷的东西，将对此进行学习。
开始学习

Flink生态圈是什么？

图1 Flink的生态圈

从部署模式上讲，Flink支持local模式、集群模式（standalone集群或者Yarn集群）、Cloud端部署。
Flink的核心是DistributedStreaming Dataflow引擎，它用来执行dataflow程序。Flink的核心运行引擎可以看作是Streaming Dataflow引擎，DataSetAPI和DataStreamAPI都可以通过该引擎创建运行时程序。
Flink中有两个核心API：用于处理有界数据集DataSet API(通常称为批处理)和用于处理无界数据流的DataStream API(通常称为实时流处理)。
在核心API的基础上，Flink还绑定了用于特定于领域的库和API，目前是用于机器学习的FlinkML, 用于图处理的Gelly和用于sql的操作的Table API。从部署模式上讲，Flink支持local模式、集群模式（standalone集群或者Yarn集群）、Cloud端部署。

图2 Flink的架构

flink程序三个基本构建块

并行数据流

在flink中，transformation是由一组operator组成，每一个operator被分割成operator subtask，同一个operator的多个 subtasks在不同的线程、不同的物理机或不同的容器中彼此互不依赖得并行执行。
Stream在operator有两种形式：One-to-one：类似于spark中的窄依赖；Redistributing：类似于spark中的宽依赖

Flink边学边记