首次加入云栖大会的Flink专场，究竟都讲了啥？

导读：9月19日，云栖大会的Flink分论坛，在杭州正式开幕。今天是云栖大会的第一天，据悉，这也是云栖大会首次加入Flink的论坛，足见阿里对于Flink前景的看好与重视。本次Flink分论坛，除了阿里巴巴的嘉宾外，论坛也邀请了Data Artisans的联合创始人，Flink的开创者和发扬者同台，共话Flink的前世今生。

　　做大数据绝对躲不过的一个热门话题就是实时流计算，而提到实时流计算，就不得不提 Spark 和 Flink。作为一款为分布式、高性能、高可用、高精确的数据流应用而生的开源流式处理框架—— Flink ，2016 年左右开始进入大众的视野并逐渐广为人知。

　　Flink 凭借更优的流处理引擎，同时也支持各种处理场景，成为现如今如今正流行的的 Spark 最有力的挑战者。而今天演讲的会场上，多位嘉宾直接以‘下一代大数据计算引擎’的表达来宣传Flink，究竟看重了Flink哪些过人之处呢?

蒋晓伟：下一代大数据引擎展望

蒋晓伟(量仔)　　阿里巴巴研究员

蒋晓伟认为Flink新的发展方向有两个。第一个是在传统数据处理领域：包括批流统一、机器学习、以及如何把AI workload融合进来;第二个是Flink和微服务的技术融合创新，从而为在线服务领域带来新的变革。这使得Flink在生态上，也会拥有大的想象空间。

　　对比Flink， Spark也有流批统一的概念，但做法与之大有不同。Spark是基于批处理做流处理，并且Spark在架构上先天不足，导致其在性能上的提升举步维艰。同时，天然批处理为主的架构为Spark进一步提高吞吐量带来巨大障碍。而Flink的批流统一，从另外一个方向去看，是将流作为一切计算的基础。这个方案与Spark相比，最本质的区别在于：第一， Flink是天然的流处理引擎，允许其在流上做到极致;第二，在流上做批，架构上允许把批处理也做到极致。

Aljoscha Krettek ：Apache Flink的前世今生

Aljoscha Krettek PMC of Apache Flink/ Co-Founder at data Artisans

　　对Flink熟悉的人应该都知道，Data Artisans 是由Apache Flink创始者们成立的商业公司，他们领导并见证了Apache Flink的发展。在会上，Data Artisans的联合创始人，Apache Flink的PMCAljoscha Krettek以‘The Past, Present, and Future of Apache Flink’为题，对Flink的前世今生作了系统的阐述。

　　‘流处理仍在不断发展和变化，这使得很难跟上发展的步伐。处于流处理技术的最前沿，Apache Flink的发展反映了许多这些发展，并且仍在继续这样做。’‘这就是我们用Flink 1.5(2018年5月)解决的问题，其中包括对Flink分布式架构的完整修改。新的分布式架构充分发挥资源弹性并动态改变应用程序并行性。此外，它大大改善了Flink的集装箱集成。

　　在部署方面还发生了什么?随着ProcessFunction的引入，我们允许在Flink之上开发数据驱动的应用程序。但是，在执行它们时，它不像是启动一个简单的应用程序，因为需要操作Flink集群。我们希望通过使应用程序成为Flink的一等公民来改变这种状况。

王绍翾：批流统一的SQL计算引擎

　　王绍翾(大沙) 阿里巴巴资深技术专家

　　Flink在创建之初，就凭借其可以优雅支持多种计算模式的架构，被业界认为具备先天优势，这也是几年前阿里巴巴选择Flink引擎的一个重要原因。如今阿里凭借其领先的技术水平，持续优化Flink在批计算处理方面的性能，使批与流之间的界限日渐消弭，真正实现批流统一。

　　三年前，在内部启动Flink时，因其开源产品的特性，很难满足阿里大体量的特定场景需求，为了将Flink在阿里巴巴真正运行起来，阿里巴巴实时计算团队做了大量的优化，并命名Flink在阿里巴巴内部的版本为Blink。Blink在迭代优化的过程中，也在不断向社区捐赠代码，真正做到“取之开源，用之开源”。

　　目前，阿里巴巴的实时业务场景，从搜索到广告、数据平台、安全等等。所有大的场景都是基于阿里巴巴内部版本Blink展开，同时通过Stream Compute产品在阿里提供公共云服务。在Flink Forward上，阿里为Flink提出的批流融合新突破，这也是架构上的一个新方向，并已经得到了初步的成果和验证。

　　此外，王绍翾也透露：Flink Forward过去只在德国柏林、美国旧金山举办。今年将由阿里巴巴作为独家承办方将这一盛会引入中国，于今年12月20日在北京落地，共建生态。

　　李晓昱：Flink在阿里巴巴电商业务中的应用

　　李晓昱(言柏) 阿里巴巴高级技术专家

　　言柏从指标计算、数据同步、监控报警、场景复现四个典型场景介绍了Flink在阿里巴巴电商业务中的应用，同时通过表、数据、代码让大家对流计算&实时大数据开发有更直观的感受。另外言柏表示为了让集团外部用户尽快享受到阿里内部的技术经验，目前数加团队和Flink团队正在进行更深入的合作，预计下半年在阿里云DataWorks产品中将发布StreamStudio，为阿里云用户带来可视化&代码化的Flink编程环境，让实时大数据开发变得更简单更有趣。

　　景丽宁： Flink在云端，如何快速应用实时计算服务

　　景丽宁(砚田) 阿里巴巴高级开发工程师

　　景丽宁着重介绍了流计算在云端的便利，主要围绕展开：

　　自建集群的痛点：硬件维护成本高，软件选型困难。

　　云端：提供一站式的流计算服务，从开发到运维，提高开发，运维效率，降低维护成本。

　　未来云端：提供自动扩缩容，进一步降低用户成本。开放 open sdk，用户可以基于流计算搭建自己的平台。

　　当你选择自己动手搭建服务的时候，你就需要从这种图中选出你需要的组件。因为大部分公司都是业务驱动，而业务上往往要求快速实现，这样就很难有足够的时间留给开发人员在技术选型上可以精挑细选。常见的做法是，大家通过混迹于各个社区、论坛，通过别人的介绍和项目的活跃程度等指标，匆匆对比之后就做出选择。先把业务搞上去，其他的慢慢再说，船到桥头自然直，遇山开山，遇水涉水。但是一旦真的遇到棘手的系统性问题，迫于人力有限，为了解决问题，采取一些比较trick的操作，比如，要是系统越跑越慢，那就定时重启一下。但是这种解决办法，都是治标不治本。系统问题甚至会让你的业务系统变得异常复杂，难易维护。导致维护的成本异常高，比如常见的 bi 系统，因为无法实现 sql 化，是指需要给bi 分析师专门配备开发人员将 sql 翻译成代码。

　　陈守元：阿里对于下一代大数据计算引擎的思考

　　陈守元(巴真) 阿里巴巴高级产品专家

　　我们认为，第一代大数据计算引擎以Hdadoop为代表，当然也包括了Storm，第二代是Spark，下一代大数据计算引擎是Flink，我们希望能够用Flink统一解决Spark之前没有解决的问题：

　　1.Spark期望一套软件覆盖主要计算模型，但实际覆盖不完整

　　2.稳定性/调优/排错仍未解决

　　3.中文资料/社区严重缺乏，未能形成有效组织

　　尽管在当初选择大数据计算引擎时，Spark无论是从热度还是生态角度也许都比Flink更胜一筹。但从长远考虑，阿里看到其在架构上存在几乎难以逾越的鸿沟，虽然Flink现在没有Spark生态那么火热，但是Flink的先天架构优势，加之诸如阿里这些大厂的支持，相信Flink会开辟出一片新的天空，且走的更远。

　　现场花絮

　　现场观众

　　200人的会场，里里外外挤满了听众，基本上属于出来很难再进来的状态。

　　会场嘉宾合影

　　专场附近的数据指挥中心，展示了各个论坛的实时状况

　　顶着大太阳在看着主会场直播画面的人群

实时计算 Flink 钉钉群

首次加入云栖大会的Flink专场，究竟都讲了啥？

猜你喜欢