什么是Flink?

Flink是一个开源的大数据框架和分布式处理引擎,它由Apache软件基金会开源,用于在无界(有数据流的开始点,但没有数据流的结束点)和有界(有数据流的开始点,且有数据流的结束点)流数据上进行有状态的计算。

优点

  • 适用于所有的流应用场景,如事件驱动应用、数据管道和ETL处理。
  • 高级别的计算正确性保证,支持精确的一次语义,保证数据只被消费一次且无遗漏,这个一般是非常难实现的。另外,基于事件时间(Event time)和延迟机制可以处理延迟导致的乱序数据计算。
  • 大规模集群计算能力,支持水平横向扩展、大规模状态存储以及增量检查点机制。当计算能力不足时,可以通过增加计算节点来提升总体计算能力。
  • 应用运维成本低,支持多种部署模式,可以灵活部署。另外,高可用机制可以最大程度保证服务的稳定性,即使某个节点宕机,也不影响其他节点对外提供服务。
  • 卓越的计算性能。通过在内存中进行数据计算,实现高吞吐和低延迟的数据处理能力,这点对于实时处理程序来说非常重要。
  • 分层次的API。对于不同的开发用户而言,对API使用的偏好是不同的,Flink SQL API可以基于SQL语法来实现对流批数据的一体化处理,这个也更加友好。另外,还提供专门的DataStream API来处理流数据计算,DataSet API来处理批数据计算。对于上层不提供的功能,用户可以基于底层的API定制数据计算逻辑。

猜你喜欢

转载自blog.csdn.net/qq_39813400/article/details/131176546