FFA 2023 特別解釈: ストリーミングとバッチングの統合、プラットフォーム構築、クラウドネイティブ

写真

今年のフリンク フォワード アジア (以下、FFA) はオフラインで復活し、12 月 8 日から 9 日まで北京のハイアット リージェンシー望京ホテルで開催されます。Flink Forward Asia 2023カンファレンスのアジェンダが公式にオンラインで公開されました。

Flink Forward は、Apache によって正式に認可された Apache Flink コミュニティの公式技術カンファレンスです。Apache Flink コミュニティ開発者の間で最も期待されている年次サミットの 1 つとして、FFA 2023 は業界のベスト プラクティスと Flink の最新のテクノロジ トレンドを収集し続けます。中国における Flink 開発にとって最も期待されているイベントであり、開発者とユーザーにとって最も見逃せない技術的な饗宴です。

統合されたフローとバッチ

統合ストリーミングとバッチ処理に関する特別セッションでは、Alibaba Cloud Intelligence、Xiaohongshu、ByteDance、Xiaomi などの企業の技術専門家が登場し、統合ストリーミングとバッチ処理の大規模アプリケーションの実際的な事例を紹介し、ビジネスの問題点や考え方を理解します。データウェアハウスの構築プロセス。さらに、Alibaba Cloud Intelligence の上級技術専門家がストリームとバッチの融合の概念と利点を共有し、完全な増分統合データ処理シナリオに基づいたストリームとバッチの融合の技術的課題と設計ソリューション、および最新の進捗状況を紹介します。およびこれに関する Flink コミュニティの将来の計画。

Apache Flink: ストリームとバッチの融合コンピューティング エンジン

Song Xintong|Alibaba Cloud Intelligence シニア テクニカル エキスパート、Flink 分散実行チーム リーダー、Apache Flink PMC

Su Xuannan|Alibaba Cloud インテリジェント シニア開発エンジニア、Apache Flink コントリビューター

トピックの紹介:

長い間、ストリーム処理とバッチ処理が大規模データ処理テクノロジの 2 つの主要なカテゴリでした。ストリームとバッチの統合概念とテクノロジの開発により、Apache Flink は単一のエンジンでストリーム処理機能とバッチ処理機能の両方を備えています。これにより、ストリーム処理とバッチ処理の区別が明確ではなくなり、新しいストリームとバッチの融合データ処理モデルが歴史的な瞬間に登場しました。ストリームとバッチの融合処理モードでは、Flink はジョブのストリーム実行モードとバッチ実行モードを指定しなくなりましたが、データの適時性に基づいて実行モードを適応的に選択して切り替えることで、レイテンシーの削減とスループットの向上の効果を実現します。この講演では、ストリームとバッチの融合の概念と利点を共有し、完全な増分統合データ処理シナリオに基づいたストリームとバッチの融合の技術的課題と設計ソリューション、最新の進捗状況と将来の計画を紹介します。この点に関しては、Flink コミュニティを参照してください。

Xiaohonshu によるストリーミングとバッチ処理とほぼリアルタイムのデータ ウェアハウスの統合に関する実践的な探求

Tang Yun|Xiaohongshu リアルタイム コンピューティング エンジン チームの責任者、Apache Flink コミッター

トピックの紹介:

1. Flink は、ストリーミングとバッチの統合インターフェイス (Flink SQL の統合と DataStream API の統合) を統合するエンジンです。Xiaohongshu は、検索とレコメンデーションに関連するインデックス データを生成するために Flink を導入し、一連のインターフェイスを使用して統合を完了します。ストリーミングとバッチ処理の併用により、開発効率が大幅に向上します。Flink Batch をバージョン 1.17 に積極的にアップグレードし、Apache Celeborn を導入し、K8S 環境での Celeborn の展開方法と安定性の問題を解決し、Flink Batch のパフォーマンス、安定性、効率を向上させました。

2. Xiaohongshu データ レイク チームと協力し、Flink CDC の機能を使用して ODS レイヤーをリアルタイムに処理し、オフライン データ ウェアハウスの適時性を向上させます。

3. オフラインデータウェアハウスのDWD層での準リアルタイム化をさらに推進し、データレイクのルックアップ結合、左結合、部分更新などのさまざまな処理方法の違いや特徴を調査し、ミニなどのメカニズムを実装します。 - 可能な限りコストを削減するためのバッチ結合/集約、データの移植性を最適化するためにチェックポイントの状態スキーマの進化を実装、オフライン データ ウェアハウスの準リアルタイム実装の背後にある中核的な技術的問題を理論的に分析し、増分データ ウェアハウスの処理について楽観的でした探査経験に基づいた IVM に基づいており、ラムダ アーキテクチャを打破し、ストリーム バッチ アーキテクチャを真に統合する方法です。

ByteDance でのストリーミングとバッチ統合の大規模な実装

Su Dewei|ByteDance インフラストラクチャ エンジニア

トピックの紹介:

Flink はストリーム コンピューティングの事実上の標準ですが、バッチ コンピューティングのシナリオでは広く使用されていません。Flink エンジンのストリーミングおよびバッチ統合機能の向上により、ByteDance 内では、オフライン データ同期シナリオの 2.2w+ Spark SQL ジョブを Flink Batch SQL に移行し、ストリーミングおよびバッチ統合の実装を促進しました。Spark SQLのジョブはパターンが豊富で、多くのSpark SQLの互換性問題を解決し、データの精度検証や自動移行を行うことで、日常のルーチンジョブをスムーズにFlink Batchに移行し、オンラインで安定して実行することができます。この共有では主に、ByteDance におけるストリーミングとバッチ統合の大規模な実装を次の 5 つのパートで紹介します。

1. ByteDance におけるストリーミングとバッチ統合の実装と課題

2. Spark SQL の互換性の向上

3. Flink Batch パフォーマンスの最適化

4. 移行プロセスとツールのサポート

5. 収入と将来計画

Flink に基づく統合データ ウェアハウスのストリーミングとバッチ処理を行う Xiaomi の実践

Wu Junsheng|Xiaomi ソフトウェア R&D エンジニア

トピックの紹介:

この共有は、Xiaomi の TV およびビデオ ビジネス向けのストリーミングおよびバッチングの統合データ ウェアハウスの構築に焦点を当てており、特定のビジネス条件に基づいて、Xiaomi の TV およびビデオ ビジネス向けのストリーミングおよびバッチングの統合データ ウェアハウスの探求が共有され、効率的で安定したデータベース。その内容は主に次の 4 つの部分に分かれています。

1. Xiaomi TVおよびビデオビジネスのデータウェアハウスの進化

2. バッチフロー型統合データウェアハウスの構築プロセスと構築中に直面した課題と感想

3. バッチフロー統合データウェアハウスの適用シナリオ

4. まとめと展望

バイトフルインクリメンタル統合リアルタイムデータ構築ソリューション

Qin Binglun|ByteDance リアルタイム データ エンジニア

Liu Xiang|ByteDance リアルタイム データ エンジニア

トピックの紹介:

Byte のビジネスには、完全に増分的に統合されたデータ シナリオ、ユーザー ポートレート、リスク管理、不動産などの典型的なシナリオが多数含まれています。運用では、潜在的な価値を探るために過去の長期データが必要なだけでなく、データの鮮度に対する高い要求もあります。したがって、リアルタイム データの完全な増分統合には大きな価値があります。この共有では主に、完全なインクリメンタル統合フロー コンピューティングの構築プロセスで直面する課題と解決策を紹介します。

1. 完全増分統合リアルタイム データの価値と課題

2. 保管工事

3. 計算の構築

4. 今後の計画と展望

プラットフォーム構築

プラットフォーム構築セッションでは、Alibaba Cloud Intelligence、NetEase、Xiaomi、SelectDB の技術専門家が、Apache Flink に基づくリアルタイム コンピューティング プラットフォームの進化と実践について共有します。

Alibaba Cloud リアルタイム コンピューティング Flink 製品化の考え方と実践

Huang Pengcheng|Alibaba Cloud インテリジェント シニア プロダクト エキスパート

Chen Jingmin|Apache Flink コミッター Alibaba Cloud インテリジェント テクノロジー エキスパート

トピックの紹介:

1. Alibaba Cloud リアルタイム コンピューティング Flink 製品紹介

2. リアルタイムコンピューティング機能とクラウド上のシナリオについての考え方

3. 製品化の実践

4. 今後の見通し

Alibaba Lingyang の Flink に基づくリアルタイム コンピューティングの最適化と実践

王立珍|Alibaba Cloud Intelligence Group 技術専門家

トピックの紹介:

Alibaba Lingyang が長年にわたって行ってきた Flink に基づくリアルタイム コンピューティングの最適化と実践を共有し、紹介します。Dataphin プラットフォームのリアルタイム コンピューティングは、販売者側のビジネス コンサルティング、メディア側のダブル イレブン メディア大型スクリーン、小規模および二次側のマーケティング活動分析など、アリババ グループ内のさまざまな BU ビジネスを常にサポートしてきました。 .; その後、外部出力用にクラウドにアップロードされ、企業に力を与え、企業のデジタル化プロセスを促進できます。主な概要は次のとおりです。

1. Flink に基づくアリババのリアルタイム コンピューティング プラットフォームの進化

2. Flink 機能の最適化と構築

3. Flink に基づくベスト プラクティス

4. 今後の計画

Flink エコシステムに基づく NetEase Interactive Entertainment のワンストップ リアルタイム データ マート

Lin Jia | NetEase Games のシニア開発エンジニア、Apache Flink コントリビューター、Flink CDC コントリビューター

トピックの紹介:

インタラクティブ エンターテイメント内での Flink の使用が着実に増加しているため、従来のアーキテクチャからリアルタイム アーキテクチャに移行する企業が増えています。非常に重要な請求ビジネスを例に挙げると、昨年、約 1,000 件のオフライン Spark コンピューティング タスクの Flink バッチ プロセスが完了しました。何千ものリアルタイム ストリーミング操作とその上流および下流の関連データ資産を管理する方法、およびテクノロジー スタック全体を複雑にすることなくデータ ユーザーがこれらのデータを簡単にクエリ、転送、計算できるようにする方法が、ワンストップ ソリューションを構築する方法です。データ マート製品の元々の動機。

この共有は、データセンターアナリストの本当のニーズから始まり、ユーザーの使用と製品設計の観点から、Flink で蓄積された技術成果とユーザーの使用方法をどのように組み合わせて、愛されるシステムを構築するかを示します。リアルタイム データ マートを停止します。共有ディレクトリ:

  • データアナリストからのニーズから始めましょう

  • Flinkインフラの構築

  • ワンストップのリアルタイムデータマート

  • 信頼性が高くエネルギー効率の高いリアルタイムのデータ価値を実現

Xiaomi Flinkリアルタイムコンピューティングプラットフォームの構築実践

Chen Zihao|Xiaomi ソフトウェア R&D エンジニア、Apache Flink コントリビューター

トピックの紹介:

この共有では、リアルタイム コンピューティング プラットフォームの構築に焦点を当て、Xiaomi 自身の実践的なビジネス経験と組み合わせて、リアルタイム コンピューティングの分野における Xiaomi の探索と構築を共有し、次のような機能を備えた統合リアルタイム コンピューティング プラットフォームを作成します。使いやすさ、低コスト、品質保証など。メインコンテンツ:

1. Xiaomi のリアルタイム コンピューティング プラットフォームの紹介

2. プラットフォームのユーザビリティ機能の構築

3. コスト管理と品質強化

4. まとめと展望

Apache Flink の超高速エクスペリエンスと StreamPark でのプラットフォームの実践

Wang Huajie|SelectDB シニア アーキテクト、Apache StreamPark PPMC メンバー

トピックの紹介:

Apache Flink はすでにリアルタイム コンピューティングのデファクトスタンダードであり、大規模に使用されていますが、その専門性ゆえに、まだ敷居が高いという問題に直面しています。特にリアルタイム ジョブの展開の点では、 Flink コミュニティは管理と運用においてこの問題を十分に解決できておらず、これは企業が実際に遭遇する一般的な問題です。このトピックでは、StreamPark がこの問題をどのように考えて解決するか、Flink の各環境コンポーネントをシームレスにサポートしてワンストップの「コーヒー管理」を実現する方法について説明し、その後、さまざまな企業が StremaPark を使用する方法といくつかのベスト プラクティスを紹介します。最後に、StreamPark によってストリーム処理が簡素化される理由をまとめます。

クラウドネイティブ

クラウド ネイティブ セッションでは、Alibaba Cloud Intelligence、OPPO、Lalamove、Yishijie などの技術専門家が招待され、Flink マルチクラウド アーキテクチャのアプリケーションと実践を共有しました。

サーバーレス Flink マルチクラウド アーキテクチャの実践

Wang Yang | Alibaba Cloud Intelligence のシニア R&D 専門家、オープンソース ビッグデータ サーバーレス プラットフォーム チーム、Apache Flink PMC のリーダー

トピックの紹介:

1. サーバーレス Flink アーキテクチャ

2. コアテクノロジー (テナント K8S 管理とコントロール プレーンの分離、テナント コンピューティング リソースの分離、テナント ネットワークの分離と接続)

3. マルチクラウド展開 (AWS、AZure、GCP)

4. 今後の展望(BYOCモデル)

Apache Celeborn: Flink がより優れたストリーミングおよびバッチ統合エンジンになるよう支援します

Zhou Keyong | Alibaba Cloud Intelligent EMR Spark Engine 責任者、Apache Celeborn(Incubating) PPMC メンバー

トピックの紹介:

1. Shuffle で Flink Batch が直面する課題

2. Apache Celeborn が Flink Batch の安定性とパフォーマンスをどのように向上させるか

3. Apache Celeborn コミュニティの現在と将来

Flink をベースにした OPPO のクラウドネイティブ リアルタイム コンピューティング プラットフォームの進化

Jiang Long|OPPO Big Data Advanced Research and Development、Apache Flink コントリビューター

トピックの紹介:

1. OPPO リアルタイム コンピューティング プラットフォームの現状、アーキテクチャ、ボトルネック: プラットフォームのアーキテクチャ設計や主要コンポーネントの機能を含む、OPPO リアルタイム コンピューティング プラットフォームの現状について詳しく説明します。同時に、データ処理パフォーマンスやリソース使用率など、現在のプラットフォームが直面しているボトルネックを分析し、解決策を提案します。

2. クラウド移行のコア技術と改善点: OPPO がリアルタイム コンピューティング プラットフォームをクラウドに移行する過程で採用したコア技術と改善点について説明します。実装計画、Flink と Kubernetes のリソース管理とスケジューリングの変革、スムーズでエラスティックなスケーリング モード (スケーリングは CPU、メモリ、LAG または DS2 アルゴリズムに基づく)、プラグイン履歴サービス、ChatGPT ベースの例外診断、および事前診断が含まれます。導入加速手段等をまとめました。

3. クラウドへの移行による利点と問題解決策: OPPO がリアルタイム コンピューティング プラットフォームをクラウドに移行することで得た利点を共有し、遭遇した問題とそれに対応する解決策を紹介します。これには、オフラインのリアルタイム ミキシング、ピーク シェービングとバレー フィルの取り組みに加え、TM ハートビート タイムアウト、単一パーティションの遅延、自動ノード ブラックアウト、リソースの相互排他などの一般的な問題を解決する方法が含まれます。

4. 運用および保守テストのリアルタイム診断: この記事では、OPPO リアルタイム コンピューティング プラットフォームの運用および保守テストのリアルタイム診断機能と、この機能を使用して問題を迅速に特定して解決する方法を紹介します。同時に、他のユーザーも恩恵を受けられるように、この機能のオープンソース ステータスを共有します。

5. 将来の見通し: OPPO のリアルタイム コンピューティング プラットフォームの将来の開発を楽しみにして、プラットフォームがより安定したインテリジェントな方向に進化し続けることが強調されます。増大するビジネス ニーズに対応するために、パフォーマンスの最適化、インテリジェントなスケジューリング、運用とメンテナンスの自動化など、考えられる進化の方向性を検討します。

Lalamove Flink クラウド ネイティブ アプリケーションと実践

Wang Shitao|Lalamoveビッグデータリアルタイムオフラインプラットフォーム責任者

チェン・ハイチン | Lalamove海外ビッグデータリアルタイムプラットフォーム責任者

トピックの紹介:

1. Flink はどのようにしてクラウド ネイティブになるのですか?

1.1 K8S オペレーターを使用して最適化して K8S に Flink を実装する

1.2 K8S クラスタ/K8S タスクのインジケーターとログ収集、および監視 + スケジューリング適応の最適化

1.3 タスク レベルおよびクラスター レベルで YARN から K8S に自動的かつ迅速に切り替える

2. Flinkクラウドネイティブでストレージと計算を分離する方法

2.1 Redis/HBase モードでのリモート状態バックエンドの実装

2.2 マルチレイヤーキャッシュの最適化に限定されない、リモートステートバックエンド適応の最適化、さまざまなワークロード下での読み取りおよび書き込みパフォーマンスの最適化、リモートストレージ設計

2.3 Redis/HBase ステートバックエンド モードでの変換とネイティブ ステートバックエンド モードへの変換の実装

3. Flink クラウドネイティブの利点

3.1 コストと安定性の利点

3.2 リモートステートバックエンドのアプリケーションシナリオ適応は状態に限定されず、アプリケーションシナリオをクエリしたり、状態がアプリケーションシナリオを共有したり、状態がアプリケーションシナリオを編集したりできます。

Flink Kubernetes Operator: クラウドネイティブにおける Flink の次の目的地

Chen Zhengyu|Yishijie Games のシニア ビッグ データ開発エンジニア、Apache Flink/StreamPark 寄稿者

トピックの紹介:

1 年以上の開発を経て、Flink Kubernetes Operator は基本的なクラウド ネイティブで Flink 機能の自動展開を実現しました。この講演では、クラウド ネイティブの Flink 時代を紹介し、Flink ジョブ デプロイメントの追跡、自動チューニング、可観測性などの側面を含む、クラウド ネイティブでの Flink Kubernetes Operator の作業について説明します。クラウドネイティブ: オペレーターの進行中の作業と、将来の Flink クラウド ネイティブの期待される機能の一部。


フリンクフォワードアジア2023

▼カンファレンス公式サイトのQRコードを読み取ってすぐにご登録ください▼

写真

トピックをクリックするとトピックの詳細と講師紹介が表示されます

フリンクフォワードアジア2023パートナー

写真

 

おすすめ

転載: blog.csdn.net/weixin_44904816/article/details/134680128