latest news! Cloudera official global release integrated Apache Flink

Translation | Qiu Yin from the (mountain Chi)

Abstract: Recent Cloudera Hadoop Great God Arun officially announced Cloudera Data Platform integrates Flink as its stream computing products, Apache Flink PMC Chair Stephan also responded on Twitter: ". This is significant," which means that all global companies covered by CDH releases Flink users will be able to use for data stream processing.

In this paper, Cloudera announced support for Apache Flink's official blog has been translated, we hope to contribute to a deeper understanding of Flink and Cloudera DataFlow (CDF).

twitter.jpg

(Arun Stephan's Twitter and interactive)

▼ The following is the official blog of the original translation Cloudera ▼

We could no longer suppress the excitement! In the past few months, Cloudera dynamic data engineering team has been working to provide Cloudera DataFlow (CDF) in a compelling product. Cloudera Streaming Analytics (CSA) of the GA version provides support for Apache Flink, thereby enhancing the capacity of the whole stream processing and analysis of dynamic data platform.

Supported by the Apache Flink Cloudera Streaming Analytics is a new product in the Cloudera DataFlow (CDF) platform that provides IoT level data stream real-time status and complex event processing. Cloudera DataFlow (shown below) is a round edge to the cloud computing platform real-time streaming data. As one of the key pillars of the CDF, stream processing and analysis is very important to deal with millions of data points and complex events from various data sources. Over the years, we have supported a number of workflow engine, but with the addition of the CDF Flink has become an attractive platform that can handle a large number of mass flow data.

Cdःkjpg

Cloudera Streaming Analytics 涵盖了 Apache Flink 的核心流功能:

  • 在 YARN 上支持 Flink 1.9.1
  • 支持在 Cloudera 托管集群上安装 Flink
  • 支持完全安全(启用 TLS 和 Kerberos)的 Flink 集群
  • 从 Kafka 或 HDFS 读取数据源
  • 使用 Java DataStream 和 ProcessFunction API 的 pipeline 定义
  • 恰好一次的语义
  • 基于事件时间的语义
  • 数据接收器写入 Kafka,HDFS 和 HBase
  • 与 Cloudera Schema Registry 集成以进行模式管理以及流事件的序列化/反序列化

这些功能可实现复杂的端到端流传输 pipeline。我们计划在即将发布的 CSA 中提供更多激动人心的功能。

平台集成,可任意扩展 Flink

CSA 将在最近发布的 Cloudera 数据平台(CDP)中心提供服务。利用 CDP 的灵活性和管理选项,可以轻松地对 Flink 进行任意扩展。有了平台集成,Cloudera Manager 可以用于安装,监视和管理 Flink 集群。集中式日志搜索还可以聚合 Flink 应用程序日志,以便于管理和调试。

最重要的是,可以使用指标报告器将 Flink 应用程序指标发送到 Apache Kafka 中。CDF 平台上的指标可以通过 Streams Messaging Manager 将 Flink 的指标收集到 Kafka 中,并以可视化的形式对它们进行分析。

为什么选择 Flink?

Apache Flink 是一个分布式,可扩展的数据分析处理引擎,可以非常轻松地处理数百万级的数据或复杂事件,并提供实时预测功能;为数据流上的大规模计算提供通信,容错和数据分发;可以处理生成的实时数据以及存储在文件系统中的数据。

在过去的几年中,Apache Flink 在全球范围内被广泛应用:

  • 电信网络监控:使用复杂的窗口逻辑,基于网络中的流数据,通过预先计算有关停机的响应和修复所需的 ETA 来处理客户投诉
  • 内容推荐引擎:在用户加载网页时向其提供推荐和搜索结果的视频流服务,需要复杂的逻辑,同时每天要主动处理数十亿个事件
  • 搜索优化:搜索引擎实时优化搜索排名
  • 点击流分析:高流量电子商务网站基于实时点击流数据收集并提供最佳的客户体验
  • 应用程序监视:大型企业评估了数千个可定制的警报规则,这些警报规则涉及指标和日志流并检测异常
  • 欺诈检测:金融组织从各种来源的数百万实时财务数据流中检测欺诈模式
  • 游戏分析:要了解游戏平台上数百万每日用户的状态并向业务团队提供分析,需要以极高的规模处理大量数据

尽管 Cloudera 提供了流处理引擎的几种选择:Storm,Spark Structured Streaming 和 Kafka Stream,但将 Flink 添加到 CDF 的意义十分重大。Storm 在市场和开源社区中逐渐失宠,用户正在寻找更好的选择。而 Apache Flink 则是这批用户的最佳选择。Kafka Streams 和 Spark Structured Streaming 则围绕他们自己的用户场景提供了相关的流处理和分析能力。但是,Apache Flink 天然支持流计算(而不是批处理),并且可以大规模处理大量数据流,提供方便的状态支持,恰好一次的语义,原生支持的容错/恢复能力,以及先进的 Window 语义。这使其成为更广泛的流处理引擎的默认选择。

On Flink Forward activities in October 2019, held in Berlin, director of engineering at Cloudera of Marton Balassi and Field CTO Andrew Psaltis announced at the conference, Cloudera commitment to Apache Flink will continue to contribute to the community through the CSA product.

Believed to Cloudera Apache Flink integration will bring more innovation for the community to provide more convenient operation for businesses and developers and more user-friendly experience. Click "read the original" to see the original blog ~

Original blog: https://blog.cloudera.com/announcing-support-for-apache-flink-with-the-ga-of-cloudera-streaming-analytics/

Guess you like

Origin yq.aliyun.com/articles/743069