ApacheCon - クラウドネイティブのビッグデータに関する Apache プロジェクトの実践

Apache Software Foundation の公式世界カンファレンス シリーズである CommunityOverCode Asia (旧 ApacheCon Asia) の第 1 回中国オフライン サミットが、2023 年 8 月 18 ~ 20 日にパーク プラザ北京で開催されます。カンファレンスには 17 のフォーラムと数百のカットが含まれます。 -エッジの問題。

ByteDance クラウドネイティブ コンピューティング チームは、CommunityOverCode Asia サミットに深く参加し、関連する基調講演を行い、8 人の学生が 4 つのトピックの下、6 つのトピックに関して ByteDance ビジネスにおける Apache オープンソース プロジェクトの実践的な経験を共有しました。さらに、Apache Calcite PMC メンバーであり、Apache Flink コミッターである Li Benchao が基調講演に参加し、オープンソースへの貢献に参加することで得た経験と成果を共有します。

 

基調演説

オープンソースに貢献するのは難しいですか?

おそらく多くの学生は、技術的な能力と影響力を向上させるために、オープンソースの貢献に参加することを考えたことがあるでしょう。しかし、仕事が忙しくて参加する時間がない、オープンソースプロジェクトは敷居が高すぎてどうやって参加すればいいのかわからないなど、理想と現実の間には距離があることが多いです。いくつかのコントリビュートを試してみましたが、コミュニティからの反応があまり高くなかったので、それに固執することはありませんでした。この基調講演では、Li Benchao 氏が自身の経験を組み合わせて、オープンソース コミュニティに貢献する過程でのいくつかのストーリーと考え、これらの困難を克服する方法、そして最終的にオープンソース コミュニティにブレークスルーを達成する方法、および以下のバランスを取る方法を共有します。仕事とオープンソースへの貢献。

李本超

Bytedance、Flink SQL テクニカル リーダー

Apache Calcite PMC メンバー、Apache Flink コミッターは北京大学を卒業し、現在 ByteDance ストリーミング コンピューティング チームで働いており、Flink SQL の技術リーダーです。

基調演説

特別トピック: データレイクとデータウェアハウス

Flinkをベースにしたリアルタイムデータレイク構築の実践

Wang Zheng火山エンジンクラウド ネイティブコンピューティング R&D エンジニア

Min Zhongyuan火山エンジンクラウド ネイティブコンピューティング R&D エンジニア

スピーチの紹介:リアルタイム データ レイクは、企業が大量のデータをリアルタイムで分析およびクエリできるようにする、最新のデータ アーキテクチャの中核コンポーネントです。この共有では、まず、データの高い適時性、多様性、一貫性、正確さなど、リアルタイム データ レイクの現在の問題点を紹介します。次に、Flink と Iceberg に基づいてリアルタイム データ レイクを構築する方法を、主に次の 2 つの部分を通して紹介します。リアルタイムでレイクにデータをインポートする方法と、OLAP 一時クエリに Flink を使用する方法です。最後に、リアルタイム データ レイクにおける Bytedance の実際的な利点をいくつか紹介したいと思います。

講師プロフィール: Wang Zheng 氏は、2021 年に ByteDance に入社し、インフラストラクチャ オープン プラットフォーム チームで働いており、主にサーバーレス Flink の研究開発やその他の方向性を担当しています。

Min Zhongyuan は 2021 年に ByteDance に入社し、インフラストラクチャ オープン プラットフォーム チームで勤務し、主にサーバーレス Flink と Flink OLAP の研究開発を担当しています。

特別トピック: 人工知能/機械学習

Bytedance ディープラーニング バッチフロー統合トレーニング実践

マオ・ホンユエ ByteDance インフラストラクチャ エンジニア

スピーチの紹介:会社のビジネスの発展に伴い、アルゴリズムの複雑さは増加し続けており、ますます多くのアルゴリズム モデルが、モデル効果を向上させるためにオフライン更新に基づくリアルタイム トレーニングを模索しています。複雑なオフラインとリアルタイムのトレーニングの柔軟な配置と自由な切り替えを実現し、より広範囲でオフライン コンピューティング リソースをスケジュールするために、機械学習モデルのトレーニングは徐々にバッチとストリームを統合する傾向にあります。 ByteDance を含む機械学習トレーニングのスケジューリング フレームワークのアーキテクチャの進化、バッチフロー統合の実践、および異種のエラスティック トレーニング。また、MFTC (バッチストリーム統合協調トレーニング) シナリオにおける、マルチステージのマルチデータ ソースのハイブリッド配置、ストリーミング サンプルのグローバル シャッフル、フルリンク ネイティブ、トレーニング データの洞察の実践的な経験にも焦点を当てています。

講師プロフィール: 2022年にByteDanceに入社、機械学習トレーニングの研究開発に従事、主に大規模なクラウドネイティブバッチフロー統合AIモデルトレーニングエンジンを担当、Douyinビデオレコメンデーション、ヘッドラインレコメンデーション、センザンコウ広告、Qianchuanグラフィック広告をサポート待機中ビジネスのための。

Bytedance Spark は Wanka モデル推論の実践をサポートします

Liu Chang ByteDance インフラストラクチャ エンジニア

Zhang Yongqiang ByteDance 機械学習システム エンジニア

スピーチの導入:クラウド ネイティブの発展に伴い、その強力なエコロジー構築能力と影響力により、ビッグ データや AI を含むますます多くの種類の負荷アプリケーションが Kubernetes に移行し始めました。Byte 内部で Spark を調査しました Hadoop Migrate to Kubernetes toジョブをクラウドネイティブで実行できるようにします。同時に、需要の高い多数の GPU を使用したオフライン バッチ処理タスクを探しましたが、潮流タスクの増加に伴い、GPU の計算能力 (カード時間) には依然として大きなギャップがあり、単一のコンピュータ室のリソース プール サイズはビジネスに適合できません。単位タスクあたりの計算量の増加、オンライン リソース プールのコンピューティング パワーの浪費、および統一されたプラットフォームの入口の欠如です。Spark と AML (応用機械学習) が協力して、GPU 共有テクノロジー、混合 GPU スケジューリング、Spark エンジンの強化、プラットフォームと周囲の環境改善による 10,000 枚のカードのオフライン計算をサポートします。混合 GPU モデル推論、および 80 億を超えるジョブをサポートします。動的トレーニング データでは、混合 GPU 7k カードを 7.5 時間使用してモデル スコアリング データのクリーニングを完了し、リソースの使用効率と安定性が大幅に向上しました。

講師プロフィール: Liu Chang 氏は、2020 年に ByteDance に入社し、インフラストラクチャ バッチ コンピューティング チームで働いており、主に Spark クラウドネイティブ作業、Spark On Kubernetes およびその他の研究開発の方向性を担当しています。

2022年にByteDanceに入社したZhang Yongqiang氏は、AML機械学習システムチームで働き、大規模な機械学習プラットフォームの構築に参加した。

特別トピック: データストレージとコンピューティング

Bytedance MapReduce -> Spark スムーズな移行の実践

魏忠佳 ByteDance インフラストラクチャ エンジニア

スピーチの紹介:ビジネスの発展に伴い、ByteDance は毎日約 120 万の Spark ジョブをオンラインで実行していますが、対照的に、オンラインでは依然として約 20,000 ~ 30,000 の MapReduce ジョブが存在します。長い歴史を持つバッチ処理フレームワークである MapReduce エンジンの運用・保守は、ビッグデータの研究開発の観点から見ると、一連の課題に直面しています。たとえば、フレームワーク更新反復の ROI が低い、新しいコンピューティング スケジューリング フレームワークへの適応性が低いなどです。ユーザーの観点から見ると、MapReduce エンジンの使用には一連の問題もあります。たとえば、コンピューティングのパフォーマンスが低く、連続的に実行されているジョブを管理するには追加のパイプライン ツールが必要です。Spark を移行したいのですが、既存のジョブが多数あり、多数のジョブが Spark 自体では使用しないさまざまなスクリプトを使用しています。サポート。これに関連して、ByteDance Batch チームは、MapReduce タスクを Spark にスムーズに移行するための計画を設計および実装しました。これにより、ユーザーは、少数のパラメーターまたは環境変数を既存のジョブに追加するだけで、MapReduce から Spark へのスムーズな移行を完了できます。移行コストが削減され、優れたコストメリットが得られました。

講師プロフィール: 2018年にByteDanceに入社し、現在はByteDanceインフラのビッグデータ開発エンジニアとしてビッグデータ分散コンピューティング分野に注力し、主にByteDanceが開発したSparkカーネルとShuffleサービスの開発を担当しています。

ByteDance 1,000 億ファイル HDFS クラスターの実践

Xiongmu火山エンジンビッグデータストレージ R&D エンジニア

スピーチの紹介:ビッグ データ テクノロジの徹底的な発展に伴い、データの規模と使用の複雑さはますます増大しており、Apache HDFS は新たな課題に直面しています。ByteDance では、HDFS は従来の Hadoop データ ウェアハウス ビジネスのストレージであるだけでなく、ストレージとコンピューティングの分離アーキテクチャのコンピューティング エンジンのベース、および機械学習モデル トレーニングのストレージ ベースでもあります。ByteDance では、HDFS は、複数のリージョンにわたる大規模なコンピューティング リソース スケジューリングを提供してコンピューティング タスクの安定性を向上させるストレージ スケジューリング機能を構築するだけでなく、統合されたユーザー側キャッシュ、従来の 3 コピー、コールド ストレージ データ識別、およびホットおよびコールドのスケジュール機能。この共有では、ByteDance が従来のビッグ データ ストレージの新たなシナリオの新しい要件をどのように理解し、技術の進化と運用保守システムの構築を通じてさまざまなシナリオでのシステムの安定性をサポートしているかを紹介します。

講師プロフィール:主にビッグ データ ストレージ HDFS メタデータ サービスの進化と上位レベル コンピューティングのエコロジカル サポートを担当。

トピック: クラウドネイティブ

Bytedance クラウド ネイティブ YARN の実践

Shao Kaiyang火山エンジンクラウド ネイティブコンピューティング R&D エンジニア

スピーチ紹介: ByteDance の社内オフライン ビジネスは非常に規模が大きく、毎日数十万のノードと数百万のタスクがオンラインで実行されており、毎日使用されるリソースの量は数千万のオーダーです。システムとオンライン スケジューリング システムは、それぞれオフライン ビジネスとオンライン ビジネスのスケジューリングと管理を担当します。しかし、ビジネス規模の発展に伴い、この一連のシステムにはいくつかの欠点が明らかになりました。このセットは 2 つのオフライン システムに属しており、一部の主要なイベント シナリオでは運用と保守によるオフライン リソースの変換が必要となり、運用と保守の負担が大きくなり、変換サイクルが長い; リソース プールの不整合により全体的なリソース使用率が低くなり、クォータ制御、マシンの運用と保守などが再利用できない; ビッグ データ運用では、クラウド ネイティブのさまざまな利点 (信頼性と安定した分離機能など) を享受できない、便利な運用・保守機能など。オフライン システムは早急に統合する必要があり、従来のビッグ データ エンジンはクラウド ネイティブ向けに設計されていないため、クラウド上に直接デプロイすることは困難であり、各コンピューティング エンジンとタスクは、さまざまな機能をサポートするために大幅に変更する必要があります。オリジナルの YARN であり、変換コストは膨大です。このような背景に基づいて、ByteDance は、クラウド ネイティブ ベースの YARN ソリューション、つまり Hadoop YARN プロトコルと 100% 互換性のあるサーバーレス YARN を提案します。Hadoop エコシステム内のビッグ データ ジョブは、変更することなくクラウド ネイティブ システムに透過的に移行できます。オンライン リソースとオフライン リソースを効率的かつ柔軟に変換および時分割多重化することができ、クラスター全体のリソース使用率が大幅に向上しました。

講師プロフィール:エンジニアリング アーキテクチャで長年の経験を持ち、ByteDance インフラストラクチャのオフライン スケジューリング関連の作業を担当。

 

おすすめ

転載: blog.csdn.net/weixin_46399686/article/details/132227993