Apache 初のアジア オンライン サミット: ワークフローとデータ ガバナンス セッション

バックグラウンド

ビッグデータは 10 年にわたって開発され、さまざまな業界に浸透しています。

需要がますます増大し、ビッグデータが生成される

企業間の依存関係はますます複雑化しており、クラウドネイティブ時代の要求と相まって、データパートナーもデータの管理に頭を悩ませていると思います。より良い、より簡単な関係とデータ ガバナンスのより良い実装は?

Apache の密接に関連したプロジェクトには、Apache DolphinScheduler、Apache Atlas、Apache Airflow、Apache Oozie、および Apache Griffin が含まれます。さらに、非常に人気のあるデータ レイク フレームワークである Apache Hudi コミュニティのパートナーを招待して、「Apache Hudi データ レイクに基づく Dolphin Scheduler の実践」を共有しますので、ご期待ください。まずは、Apache Foundation の年次イベントをご紹介します。

                   アパッチコン

                                               @公式グローバルカンファレンスシリーズ  

ApacheCon は、毎年開催される Apache Software Foundation (ASF) の公式グローバル カンファレンス シリーズです。権威あるオープンソースの祭典として、これはオープンソース業界で最も期待されているカンファレンスの 1 つです。

1998 年の創設以来、ApacheCon には 350 以上の技術プロジェクトとさまざまなコミュニティが参加しており、国内外の業界専門家や教師が集まり、世界中の最新の技術トレンドや実践を共有し、「明日のテクノロジー」について議論しています。これにより、テクノロジー愛好家の大多数がさまざまなテクノロジーの最前線の最新トレンドと進歩を確認し、テクノロジー スタックをより適切にアップグレードできるようになります。

今年は組織委員会がアジア太平洋地域向けのオンライン ApacheCon カンファレンス「ApacheCon Asia」を開催するのは初めてです。アジアカンファレンスでは、中国、日本、インド、米国、その他の国々からの 140 以上のトピックが、ビッグデータ、インキュベーター、API/マイクロサービス、インターネット、統合、オープンソース文化を含む 14 のフォーラムに分かれて開催されます。

ワークフロー/データ ガバナンスについてワークフローとデータ ガバナンス フォーラム

ワークフローとデータ ガバナンスは、複雑なデータ処理を秩序ある方法でスケジュールおよび処理し、メタデータ、血縁関係、およびデータ品質を管理および制御します。ASF のさまざまなプロジェクトは、Apache DolphinScheduler、Apache Airflow、Apache Oozie などのさまざまなデータ ワークフロー ソリューションを提供し、Apache Atlas と Apache Griffin はさまざまなメタデータとデータ品質管理を提供します。ワークフローとデータ ガバナンスのトピックでは、これらの Apache プロジェクトを特定のプロジェクトに適用する際の最前線のユーザーの実践的な経験について学ぶだけでなく、これらの Apache プロジェクトのエコロジーにおける最新の進歩についても学びます。同時に、データ スケジューリングとデータ ガバナンスの将来にも期待するでしょう。

プロデューサー

郭偉  

Apache メンバーと Apache DolphinScheduler PMC 

8 月 7 ~ 8 日の議題のハイライト

@アパッチ  

ワークフロー/データガバナンス

オペレータにおける DolphinScheduler スケジューリング ツールの実践 

シェアゲスト:王興傑

時間8月7日13:30

トピックの紹介:

私たちは DolphinScheduler を選択しました。DolphinScheduler は、拡張が容易で、優れたフォールト トレランス メカニズムを備え、非常に活発なコミュニティを持つオープン ソースのスケジューリング システムです。毎日 100,000 を超えるスケジューリング タスクに対処するために、チャイナ ユニコムで DolphinScheduler スケジューリング ソリューションの使用を紹介します。

ゲスト紹介:

王興潔

2014 年に卒業後、ソフトウェアの研究開発に従事し、7 年間の研究開発経験を持ち、現在は主にチャイナユニコムのビッグデータ スケジューリング システムの研究開発と移行を担当しています。

大規模で複雑なタスク スケジューリング ツール -- Apache DolphinScheduler

シェアゲスト: 郭強

時間:8月7日14:10

トピックの紹介:

Apache DolphinScheduler は、大規模で複雑なタスクを安定してスケジューリングする必要性から生まれたスケジューリング ツールです。このトピックでは、DolphinScheduler の安定性、使いやすさなどの側面を紹介します。同時に、マイクロカーネル アーキテクチャ設計である 2.0 も導入され、2.0 以降、DolphinScheduler の各コンポーネントは SPI 形式でオープンされ、ユーザーはこれに基づいて独自の機能要件を迅速に実現できます。

ゲスト紹介: 

郭強

Apache DolphinScheduler PMC、シニア ソフトウェア エンジニア、得意分野: ネットワーク通信、ビッグ データ処理およびコンピューティング

エアフローの詳細な練習

シェアゲスト:ウー・リアン

時間:8月7日14:50

トピックの紹介:

Shanghai Shuhe Technology の Airflow プラットフォームの実例に基づいて、複雑なシナリオでの Airflow アプリケーション、運用とメンテナンス、カスタム開発の実践を紹介します。

複雑なシーンの課題: 

  1. クロスクラウド分散展開で高可用性を確保する方法。

  2. 複数のタイプのスケジューリング シナリオを効果的にサポートする方法。

  3. ETL ジョブの高可用性を確保する方法。

  4. スケジュールガバナンスがどのように実行されるか。

  5. 最大限の自動化を実現する方法。

同時に、いくつかのビジネスニーズにも対応します。

  1. データ アナリストには多くのスケジュール設定のニーズがあり、DAG Python スクリプトを開発するのは困難です

  2. 部門または個人が属する DAG は、他の部門担当者によって編集、表示、および手動でスケジュールされることを望まないですか?

  3. DAG でのジョブのオンライン承認は効率が低く、作業負荷が重いです。効率を向上させ、標準化されていない操作を回避するにはどうすればよいですか?

    メッセージ システムはどのようにジョブ バッチをトリガーしますか?

対応する最適化計画を共有します。 

  1. DAG 構成の視覚化: DAG パラメーターはインターフェイス上で構成され、DAG ファイルはバックグラウンドで自動的に生成されます。

  2. DAG 権限制御: 部門および DAG による DAG の権限付与。読み取り、書き込み、実行を区別します。

  3. ジョブの標準化監視: ジョブがルールに準拠しているかどうかを監視する検出ルールを設定し、対応するプロンプトを実行します。

  4. イベントトリガープラグイン:センサージョブやAMQPなどの各種メッセージを受信し、対応するジョブの実行をトリガーします。

ゲスト紹介: 

ウー・リアン

Shanghai DataSeed の情報技術ビッグデータ開発エンジニアは、エアフローの使用、メンテナンス、開発に 2 年の経験があり、エアフローを深く理解しています。私の経験と理解がエアフローのオープンソース コミュニティに貢献できることを願っています。

Apache HudiベースのデータレイクでのDolphinスケジューラの実践

共有ゲスト:チャオ・ユーウェイ

時間:8月7日15:30

トピックの紹介:

データ レイクは、さまざまな種類のデータ ソースを分析するためのエンタープライズ レベルのデータ管理プラットフォームです。データ レイク アーキテクチャは、複数のデータ ソースの統合を保証し、複数のデータ モデルをサポートしてデータの正確性を保証します。リアルタイム分析のニーズを満たすことができ、バッチ データ マイニングのニーズを満たすデータ ウェアハウスとしても使用できます。したがって、データ取り込み、データ ストレージ、データ探索、データ検出、データ ガバナンスなどのデータ レイクの外部機能を調整するには、効率的で安定しており、簡単にスケーラブルなタスク スケジューリング システムが必要です。ここでは、タスク スケジューリング システムとして Apache DolphinScheduler を選択した理由と、データ ユーザーが技術的な詳細にあまり注意を払わずにデータ レイクと簡単にやり取りできるようにする方法について説明します。

ゲスト紹介:

チャオ・ユーウェイ

Hadoop関連の開発業務に従事し、現在の主な仕事の方向性はタスクスケジューリングシステムの研究開発です。

新世代のビッグデータ ワークフロー スケジューリング プラットフォームである Apache DolphinScheduler のアーキテクチャの進化

シェアゲスト: Lidong Dai

時間:8月8日13:30

トピックの紹介:

主に次の 6 つの部分で構成されます。

まずはDolphinSchedulerの紹介

2 番目に、ビッグ データ ワークフロー スケジューリング プラットフォームの問題点

第三に、DolphinScheduler の利点

4 番目に、バージョン 1.2 からバージョン 1.3 へのアーキテクチャの進化

5 番目、アーキテクチャ 2.0 のロードマップとロードマップ

最後にユーザーストーリーをいくつか共有します

ゲスト紹介:

リドンダイ

Apache DolphinScheduler PMC チェアおよび Apache インキュベーター PMC、10 年以上のビッグ データ経験、大規模データ プラットフォームの構築と最適化が得意

Apache DolphinScheduler に基づくデータ品質サービスの実践

シェアゲスト: Sun Chaohe

時間:8月8日14時10分

トピックの紹介:

この講演は主に、設計アイデア、実装方法、DolphinScheduler ベースのデータ品質サービスを実際のシナリオに適用する方法を共有することを目的としています。

ゲスト紹介: 

サン・チャオヘ

ビッグ データ プラットフォームの開発に豊富な経験があり、オープン ソースを愛し、積極的に参加しており、DolphinScheduler の上級コード コントリビューターでもあります。

Airflow を使用した Kubernetes でのデータ処理

シェアゲスト: ルアン・ペン

日時:8月8日14時50分

トピックの紹介:

1.エアフロー+K8Sを使用する理由

2、エアフローoa/rbac/web

3. Airflow は docker/docker-compose/k8s で実行されます

4、エアフロー kubernetes-operator

5.エアフローk8sポッドプラグイン

6. airflowアップデートフレンドリー

7. Tencent Musicでの使用

ゲスト紹介: 

ルアン・ペン

Tencent Music Data Center は、クラウドネイティブの機械学習プラットフォームとデータ プラットフォーム関連コンテンツの構築に従事

DolphinScheduler ワークフロー DAG の大きな JSON 分割の詳細な説明と計画 

共有ゲスト: リジニョン

時間:8月8日15:30

トピックの紹介:

現在、DolphinScheduler のプロセス定義は大規模な Json ストレージを使用するため、タスクが比較的大きい場合には効率的ではありません。この問題を解決するためのソリューションを紹介します。このソリューションは Apache DolphinScheduler にも提出されており、近い将来リリースされる予定です。

ゲスト紹介: 

リジンヨン

DolphinScheduler コミュニティへの積極的な貢献者、オープンソース活動家、現在 Zhengcai Cloud のビッグデータ部門に勤務し、ビッグデータ プラットフォーム アーキテクチャの仕事に従事し、ビッグ データ プラットフォームとデータ ウェアハウス ツールの設計と開発、オンライン トラブルシューティングを得意としています。等

ワークフローとデータガバナンスで お会いしましょう!!!

登録方法

ApacheCon Asia 2021

8月6日-8日  

14 のフォーラム、100 以上の技術プロジェクト

140以上のトピックスピーチ

世界のテクノロジー専門家や専門家とのオンライン対話

3日間の全天候型交流イベント

参加無料

ApacheCon Asia初のオンライン仮想カンファレンス

2021年8月6日~8日

友達の到着を楽しみにしています

原文をクリックして登録してください

ApacheCon Asia 2021

https://www.apachecon.com/acasia2021/

クリックして元のテキストを読んでください。サインアップして点灯して視聴できます。あなたは最高です

おすすめ

転載: blog.csdn.net/DolphinScheduler/article/details/119259610