Flink生态与未来

本文为《Flink大数据项目实战》学习笔记，想通过视频系统学习Flink这个最火爆的大数据计算框架的同学，推荐学习课程：

Flink大数据项目实战：http://t.cn/EJtKhaz

核心组件栈

Flink发展越来越成熟，已经拥有了自己的丰富的核心组件栈，如下图所示。

从上图可以看出Flink的底层是Deploy，Flink可以Local模式运行，启动单个 JVM。Flink也可以Standalone 集群模式运行，同时也支持Flink ON YARN，Flink应用直接提交到YARN上面运行。另外Flink还可以运行在GCE（谷歌云服务）和EC2（亚马逊云服务）。

Deploy的上层是Flink的核心（Core）部分Runtime。在Runtime之上提供了两套核心的API，DataStream API（流处理）和DataSet API（批处理）。在核心API之上又扩展了一些高阶的库和API，比如CEP流处理，Table API和SQL，Flink ML机器学习库，Gelly图计算。SQL既可以跑在DataStream API，又可以跑在DataSet API。

生态

从上图可以看出Flink拥有更大更丰富的生态圈：

中间最底层Deploy模式包含 Local本地模式、Cluster（包含Standalone和YARN）集群模式以及Cloud云服务模式，然后它的上层是Flink runtime运行时，然后它的上层是Flink DataSet批处理和DataStream流处理，然后它的上层又扩展了Hadoop MR、Table、Gelly（图计算）、ML（机器学习）、Zoppelin（可视化工具）等等。

左边为输入Connectors。流处理方式包含Kafka（消息队列），AWS kinesis（实时数据流服务），RabbitMQ（消息队列），NIFI（数据管道），Twitter（API）。批处理方式包含HDFS（分布式文件系统），HBase（分布式列式数据库），Amazon S3（文件系统），MapR FS（文件系统），ALLuxio（基于内存分布式文件系统）。

右边为输出Connectors。流处理方式包含Kafka（消息队列），AWS kinesis（实时数据流服务），RabbitMQ（消息队列），NIFI（数据管道），Cassandra（NOSQL数据库），ElasticSearch（全文检索），HDFS rolling file（滚动文件）。批处理包含HBase（分布式列式数据库），HDFS（分布式文件系统）。

未来

Flink会进行批计算的突破、流处理和批处理无缝切换、界限越来越模糊、甚至混合。

Flink会开发更多语言支持

Flink会逐步完善Machine Learning 算法库，同时 Flink 也会向更成熟的机器学习、深度学习去集成(比如Tensorflow On Flink)。

核心组件栈

生态

从上图可以看出Flink拥有更大更丰富的生态圈：

未来

Flink会进行批计算的突破、流处理和批处理无缝切换、界限越来越模糊、甚至混合。

Flink会开发更多语言支持

猜你喜欢