記事ディレクトリ
- コース概要
- モジュール 1: ビッグ データの「トロイカ」: HDFS、MapReduce/YARN、HBase
- モジュール 2: ビッグ データ時代のデータ ウェアハウスの実践: Hive
- モジュール 3: 高速データ処理エンジン: Spark
- モジュール 4: 最新のデータ ウェアハウスの再構築: Spark SQL
- モジュール 5: OLAP バトル: Presto、Kylin、ClickHouse
- モジュール 7: データ開発システム: ETL、データ視覚化
- モジュール 9: Hadoop および Spark コアのソース コードの説明
- モジュール 10: 面接通過: 優秀なビッグデータ開発エンジニアになる方法
- 実践的なプロジェクト
- プロジェクト 1: Hadoop クラスターのクラウド ホストの構築と健全性管理
- プロジェクト2:データ可視化とインタラクティブなセルフサービス分析プラットフォームの構築
- プロジェクト 3: Spark を使用して大規模な e コマース ユーザー データを分析する
- プロジェクト 4: Hadoop と Spark のソース コードの学習
コース概要
モジュール 1: ビッグ データの「トロイカ」: HDFS、MapReduce/YARN、HBase
教育目標:
Hadoop はビッグ データ プラットフォーム システムの基礎です。このモジュールでは、Hadoop の生態学的な「トロイカ」について学習し、次のことを行います。
- ストレージとコンピューティングの観点から分散システム フレームワークをマスターします。
- クラスターを構築、管理、使用、監視する方法を理解します。
- ビッグデータの問題を効果的に解決する方法を理解する。
- HDFS、MapReduce、YARN の優れた設計とソース コードを学習することで、分散システムを設計および実装する方法を学びます。
勉強や仕事での問題点:
- 私は Hadoop テクノロジー エコシステムを深く理解しておらず、どのシナリオが問題を引き起こすのかもわかりません。また、落とし穴を回避する方法やシステムを最適化する方法もわかりません。
- レベルは使用レベルに留まり、安定した分散システムを設計および実装する能力はありません。
- Hadoop エコシステムは複雑で、多くのコンポーネントと大量のコードが関与しているため、学習を始めるのが困難です。
- 独学では効率が悪く、読んだ知識もすぐに忘れてしまい、深く理解できず、すぐに要点を理解して応用することができません。
学習を通じて得られるコアコンピテンシー:
- ビッグデータのデータ処理フレームワークとモデルについての包括的な理解。
- HDFS、MapReduce、YARN のアーキテクチャを体系的に学習し、ブロック ストレージ、読み書き分離、スケジューラ、有限状態オートマトン、WAL などの技術原則を理解します。
- HDFS と YARN のアーキテクチャ、HA モデル、フェデレーション アーキテクチャなどを学びます。
- Hadoop のトラブルシューティングのためのアイデアとテクニックを習得し、適切なアーキテクチャを選択する方法とプラットフォームを監視および管理する方法を理解します。
- Hadoop の優れたソース コードを学習することで、分散システムの設計原則をマスターし、独自の分散システムを設計および実装します。
- コース修了後は、Hadoopビッグデータプラットフォームエンジニアや運用保守エンジニアとして活躍できるようになります。
詳細内容:入門コース(2レッスン)+13レッスン
- Hadoop 開発の歴史とエコシステムの概要。
- 分散ファイル システム HDFS の機能、役割、利点、適用状況、開発傾向などの概要。
- システム アーキテクチャ、ファイル ストレージ モード、ストレージ拡張、スループット パフォーマンス拡張などを含む、HDFS の中核となる主要テクノロジ、設計の本質、および基本的な動作原理の詳細な説明。
- データ並列テクノロジ MapReduce の概要と、その動作メカニズム、基礎となる原理、パフォーマンス チューニング手法などの詳細な説明。
- ビッグデータプラットフォームにおける並列コンピューティング処理のアイデアと関数型プログラミング技術原理の分析。
- MapReduce 並列処理プラットフォームのシステム アーキテクチャ、コア機能モジュール、MapReduce プログラミング アプリケーション開発実践。
- リソース スケジューラ YARN のアーキテクチャとさまざまなスケジューリング アルゴリズムを学びます。
- YARN の災害復旧メカニズム、マルチテナント モデルなどについて説明します。
- 事例: 企業のビッグデータ プラットフォームを例として、PB レベルのキャパシティ クラスターの実際の構成スキームを共有し、クラスター コンピューター ルームの実際の展開トポロジーを推奨します。
モジュール 2: ビッグ データ時代のデータ ウェアハウスの実践: Hive
指導目標:
Hive は、ビッグ データ システムにおけるデータ ウェアハウスの標準となっており、大手インターネット企業のデータ ウェアハウス構築に必要なソリューションにもなっています。
このモジュールでは、次のことを学習します。
- Hive の背後にある基本と原則を再学習します。
- Hive の使用方法の詳細な分析。
- HQL 構文と一般的に使用されるウェアハウス パターン設計をマスターします。
- Hive の最適化方法をマスターします。
- Hive の高度な機能と将来の開発トレンドを理解する。
- 事例演習を通じて学習内容を定着させます。
勉強や仕事での問題点:
- ビジネス側は SQL を書くことしかできませんが、SQL の基礎となる実装の詳細を知らず、効率的な SQL を書くことができません。
- プラットフォームは SQL を理解できないため、ビジネスによる SQL の最適化を支援できず、プラットフォーム リソースが無駄になります。
- SQL エラー レポートは理解できず、実行速度が遅い場合はリソース不足が原因であるだけで、根本原因は見つかりません。
学習を通じて得られるコアコンピテンシー:
- Hive の基本原則をマスターします。
- Hive の基本的な使い方をマスターします。
- HiveQL の基本的な構文と一般的な最適化手段をマスターします。
- Hive データ ウェアハウスの設計方法を理解すると、ほとんどのインターネット シナリオでビッグ データ分析やデータ開発タスクを実行できるようになります。
詳細:10レッスン
- Hive バージョンの進化と現在のステータス、Hive のインストールと展開、HiveServer と JDBC/ODBC、Hive の基本アーキテクチャ。
- Hive がサポートする基本的なデータ型、Hive がサポートするファイル形式とその長所と短所、および Hive の共通パターンの設計。
- HiveQL データ定義、データ操作、およびデータ クエリ (Select/Where/Group By/Join/OrderBy/SortBy/Cl By/Join/OrderBy/SortBy/ClusterBy/DistributeBy);
- Hive チューニング、Explain による実行計画の表示、Map/Reduce の数の制御。
- Hive の投機的実行メカニズム、結合最適化戦略、データ スキュー問題の一般的な解決策、動的パーティションの最適化。
- ケース: このモジュールで学習した内容を、広告ユーザーの行動分析の実践を通じて統合します。
モジュール 3: 高速データ処理エンジン: Spark
教育目標:
Spark は、新世代のビッグ データ処理エンジンとして、多くのインターネット企業がオフライン データ処理に最初に選択するものであり、リアルタイム コンピューティング、機械学習、その他の分野でも広く使用されています。 :
- Spark の基本概念と基礎となる原則を理解して習得します。
- Spark の実践的なスキルをマスターし、データ処理分析、データ開発、その他のタスクを実行できるようになります。
- エンタープライズレベルの事例に基づいたパフォーマンスチューニング、ビッグデータ移行などの知識を習得します。
- ビッグデータを使用して実際的な問題を解決することへの関心を刺激します。
勉強や仕事での問題点:
- Scala 言語が分からず、Spark API を使用できない。
- Spark プログラミング モデルを理解していなければ、MR ジョブを Spark ジョブに変換することはできません。
- Spark の各コンポーネントの基礎となる動作原理が明確でない、データ分析に Spark を柔軟に使用できない、または Spark タスクの実行が遅い理由が不明である。
- Spark タスクでは、多くの場合、OOM、リソース使用量の低下、大規模なジョブの実行速度の低下が発生しますが、原因を迅速に特定して Spark タスクを最適化することは不可能です。
学習を通じて得られるコアコンピテンシー:
- Spark の設計原則と動作原理、およびさまざまな基本コンポーネントの使用と展開を理解します。
- Spark の API をクエリする方法と、ドキュメントを使用して独自の Spark アプリケーションを開発する方法をマスターします。
- Spark ジョブの実行時のステータスとパラメーターを表示してパフォーマンスのボトルネックを特定し、対象を絞った分析と最適化を実行する機能を習得します。
- 企業レベルの複雑なビッグデータの問題を解決するための予備的なアイデアとスキルを持っている。
- コース修了後は、データ開発エンジニアおよびデータアプリケーション開発エンジニアの役割を担うことができます。
詳細:5レッスン
- Spark とは何か、Spark のアプリケーション シナリオとアイデア。
- プログラミング モデル、RDD、データ処理フロー、データ ストレージ形式、リソース割り当てアルゴリズムなどの Spark の基本概念。
- Spark が Hive より 100 倍速い理由;
- Spark クラスター環境を構築する方法とそれを監視する方法。
- Spark ジョブのライフサイクル管理とパフォーマンスの最適化。
- Spark API の詳細な説明と Spark プログラムの作成の実践。
- Spark スケジューラ、Spark Shuffle の最適化。
- Spark 機械学習と Spark ストリーミング コンピューティングについて学びます。
モジュール 4: 最新のデータ ウェアハウスの再構築: Spark SQL
教育目標:
Spark SQL は Spark の最も重要なモジュールです。Spark の使用シナリオの 80% 以上が SQL です。同時に、HiveQL との互換性により、データ ウェアハウスにおける Hive の地位が徐々に置き換えられています。このモジュールは、あなた:
- SQL の背後にある基本概念と原則を再学習します。
- Spark SQL 構文や一般的なウェアハウス パターン設計などの実践的なスキルをマスターします。
- Spark SQL 最適化のアイデアと方法をマスターする。
- Spark SQL の高度な機能と Spark 3.0 の新機能をマスターします。
勉強や仕事での問題点:
- SQL を記述できるデータ アナリストは Spark SQL の原理を理解しておらず、SQL の実行が遅いか実行できません。
- 「不正な SQL」は、プラットフォーム リソースの無駄、さらにはアプリケーションの OOM を引き起こします。
- 複雑な SQL 実行計画に直面すると、どこから始めればよいのか、ボトルネックがどこにあるのか、それを解決する方法がわかりません。
- Spark開発の基礎はある程度できていますが、Spark SQLのソースコードが理解できず、バグの修正方法もわかりません。
学習を通じて得られるコアコンピテンシー:
- SQL の基本概念と基礎となる原則をマスターします。
- Spark SQL の実践的なチューニング スキルとその背後にある原則をマスターします。
- SQL 実行が遅い原因を迅速に特定し、より高速な SQL を作成できます。
- Spark SQL の論理プランの最適化、物理プラン、およびコード生成について一定の理解を持ち、SQL オプティマイザーを変換するための簡単なルールを追加できる。
- データ ウェアハウス エンジンを構築および最適化する能力がある。
- カーネルの二次開発と変換を実行して、より安定した高スループットのプラットフォームを構築できます。
- 学習後は、SQL の最適化と高度なデータ開発タスクを実行できるようになります。
詳細:10レッスン
- SQLの基本概念、テーブル接続方法。
- Spark SQL の論理プランの最適化と物理プランの最適化。
- Spark データ スキューの最適化。
- Spark 3.0 の新機能。
- Spark SQL のベスト プラクティス。
- 実践: ペタバイトレベルの商用データウェアハウスを Spark にスムーズに移行する方法。
- Spark TPC ベンチマーク。
- Spark Web UIのデバッグ;
- ケース: Spark ジョブ管理エンタープライズのケース。
- ケース: Spark データ ウェアハウス移行エンタープライズ ケース。
モジュール 5: OLAP バトル: Presto、Kylin、ClickHouse
指導目標:
OLAP テクノロジは、ビッグ データ分析の分野で非常に重要な部分です。優れたコンピューティング エンジンは数多くあります。どのように選択するかが大きな問題となっています。このモジュールでは、次のことを学びます:
- Spark SQL に基づいて、OLAP ナレッジ システムを拡張します。
- 一般的に使用される 3 つの OLAP エンジン、Presto、Kylin、ClickHouse について学びます。
- これら 3 つの OLAP エンジンのアプリケーション シナリオ、背後にある原理、選択ポイントを比較および検討します。
勉強や仕事での問題点:
- このプラットフォームは複数の OLAP テクノロジーを提供しますが、どれを使用するかは明確ではありません。
- エンジン間の違いを理解していないと、一部のクエリが高速であり、すべてのクエリが高速であるという誤解を生じやすくなります。
- 技術スタックが多すぎて一度覚えたら忘れてしまい、横の比較や体系的なまとめがありません。
学習を通じて得られるコアコンピテンシー:
- OLAP テクノロジーの基本をマスターします。
- Presto、Kylin、ClickHouse エンジンの基本的な動作原理をマスターします。
- 使用シナリオと、さまざまなエンジンの長所と短所の比較を理解します。
- さまざまな OLAP エンジンの共通点や特徴を把握し、実際に適切に選択して使用できるようになります。
- OLAP テクノロジーの将来の開発の方向性と中心的な問題を理解します。
詳細:7レッスン
- OLAP と一般的な操作とは何ですか。
- Presto、Kylin、ClickHouse のアーキテクチャの分析。
- Presto、Kylin、ClickHouse のクエリ オプティマイザーと実行プロセスの分析の紹介。
- これら3つのOLAPエンジンの特徴や利用シーンを横並びで比較し、共通点や特徴を把握します。
- OLAP エンジン テクノロジ ソリューションを選択する際の重要なポイントをマスターします。
モジュール 6: ストリーミング処理とリアルタイム コンピューティング: Kafka、Flink
指導目標:
現在、スケール コンピューティングが中心的な問題ではなくなっているため、ビッグ データの分野ではリアルタイム要件が開発の焦点になっています。 :
- ストリーム処理テクノロジの代表的なアプリケーションである Kafka の背後にあるアプリケーションの実践と原則をマスターします。
- 人気のリアルタイム コンピューティング エンジン Flink の背後にあるアプリケーションの実践と原則をマスターします。
- 細部から離れて、リアルタイム コンピューティング システムの動作原理とシステムの本質をマスターしてください。
勉強や仕事での問題点:
- ビジネス指標を満たすリアルタイム アプリケーションを開発する方法。
- 「ジッター」が発生した場合の対処法、障害回復とアプリケーションのダウングレードの方法。
- プラットフォームはどのようにして高いパフォーマンスと信頼性を確保するのでしょうか。
- 高度なリアルタイム シナリオの場合、リアルタイム コンピューティング エンジンを有効に活用する方法。
学習を通じて得られるコアコンピテンシー:
- Kafka と Flink の基本原則をマスターします。
- リアルタイム アプリケーションの開発プロセスをマスターします。
- リアルタイムのアプリケーションとシステム自体を監視し、警告します。
- リアルタイム コンピューティングのエンタープライズ アプリケーションの実践を学習することで、独自のリアルタイム アプリケーションを設計し、ベスト プラクティスを形成できます。
詳細:5レッスン
- Kafka とは何か、Kafka のアプリケーション シナリオとアイデア。
- Kafka の高いパフォーマンスと信頼性の背後にある設計原則。
- Kafka API の使用に関するヒント、プログラム開発に Kafka API を使用する方法。
- Kafka の監視、運用、保守、パフォーマンスの最適化。
- Flink の基本原理とアーキテクチャ。
- Flink API を使用するアイデアとプログラム開発に Flink API を使用する方法。
- 複数のアプリケーション シナリオで Flink を練習し、実際に Flink を上手に活用してください。
モジュール 7: データ開発システム: ETL、データ視覚化
指導目標:
データ開発システムは、ビッグ データの分野において不可欠かつ重要なコンポーネントです。これには多くの知識ポイントが含まれますが、その中で最も基本的かつ重要なものは ETL とデータ視覚化です。このモジュールでは次の内容を学習します:
- ETL アプリケーションの実践と選択のアイデアをマスターする。
- ETL の設計原理と動作原理をマスターします。
- データ視覚化のアプリケーション スキルとプラットフォーム構築実践をマスターします。
- 以前のモジュールと統合し、閉ループのビッグ データ アプリケーションを開発する機能を習得します。
勉強や仕事での問題点:
- ETL フレームワークの開発をより適切に選択してカスタマイズする方法。
- スケジューリング システムとタスクの依存関係を最適化する方法。
- メタデータ管理を設計する方法。
- データの視覚化とアプリケーションを組み合わせる方法。
- データ視覚化の開発コストを簡素化する方法。
- データの視覚化によってデータ開発コストを削減する方法。
学習を通じて得られるコアコンピテンシー:
- ETL のスケジューリング システムの動作原理とタスクの依存関係の設計原理をマスターします。
- 独自のビジネス ニーズに基づいて、複数のオープン ソース スケジューリング システムを選択します。
- ETL のタスク テンプレートとメタデータ管理テクノロジの設計を理解します。
- データを視覚的に表示する方法をマスターし、事例に基づいてデータ可視化プラットフォームを構築します。
- 学習後は、ビッグデータ プラットフォーム全体のクローズドループ構築を完了できるようになります。
内容:3レッスン
- ETL でのスケジューリング システムの選択、Oozie、Azkaban、Airflow などのスケジューリング システムの紹介。
- ETL でのタスク スケジューリング システム設計、スケジュールされたタスクの設計、および処理ソリューション。
- スケジューリング システムは ETL タスクの依存関係をどのように自動的に解決しますか。
- ETL タスクの設計、データ抽出、読み込みツールの実装。
- ETL タスク テンプレートとメタデータ設計の実装。
- データ視覚化ツールの紹介。
- HUE の構築と使用。
- 事例: Airbnb が開発した Superset アーキテクチャとそのユースケースの紹介。
モジュール 8: データ レイク、ビッグ データの次の革命: DeltaLake、Hudi、Iceberg
指導目標:
データ レイク テクノロジは、過去 2 年間でビッグ データの分野で最も注目されているテクノロジの 1 つであり、現在のデータ レイク テクノロジを変える可能性があります。企業のデータ計画の全体像を把握し、現在のデータ ウェアハウス システムを最適化することもできます。このモジュールでは次のことを行います。
- データ レイクの知識システムを理解し、データ ウェアハウスとデータ レイクの違いを比較して習得します。
- 現在の 3 つの優れたデータ レイク ソフトウェア、DeltaLake、Hudi、Iceberg の基本原則とアプリケーション プラクティスをマスターします。
- テクノロジー選択の重要なポイントをマスターし、データ レイク開発の実践においてテクノロジーをより効果的に使用および最適化します。
勉強や仕事での問題点:
- 概念にとどまり、データ レイク テクノロジーの本質を理解していない。
- データ レイク ソフトウェアの裸の使用によって引き起こされるパフォーマンスの低下。
- 新しいテクノロジーの拒否、悪用、悪用。
- 以前に学んだ知識、システム、データ レイク テクノロジーを効果的に組み合わせるのは不可能です。
学習を通じて得られるコアコンピテンシー:
- データ レイクの性質とデータ ウェアハウスの違いを理解する。
- DeltaLake、Hudi、Iceberg の基本原則をマスターします。
- さまざまなデータ レイク ソフトウェアを適切に選択する機能。
- データレイクソフトウェアの二次開発を実行できる。
- Spark、Flink、データ レイク ソフトウェアを組み合わせてデータ レイク アプリケーションを構築できます。
詳しい内容:5~10時間の授業
- データ レイクとデータ ウェアハウスの性質と違いを紹介します。
- DeltaLake、Hudi、Iceberg のそれぞれについてアーキテクチャ分析と比較を実施します。
- 実践: Spark + DeltaLake を適用してデータ レイク アプリケーションを構築します。
- 実践: Flink + Hudi/Iceberg を使用してデータ レイク アプリケーションを構築します。
- DeltaLake のパフォーマンスの最適化と二次開発の実践。
モジュール 9: Hadoop および Spark コアのソース コードの説明
指導目標:
Hadoop と Spark はビッグ データ システム全体の基礎であり、ソース コードを学習することで、その基礎となる設計原則をより深く理解できるようになり、開発能力とシステム アーキテクチャ能力も向上します。このモジュールでは次のことが可能になります。
- Hadoop と Spark のコア ソース コードを説明し、二次開発を実行する方法を教えます。
- Hadoop と Spark をデバッグして、開発能力を向上させ、ブレークスルーを実現します。
勉強や仕事での問題点:
- 新しいプロジェクトを学びたいが、大量のコードに直面するとどこから始めればよいかわからない。
- コードのロジックを理解できず、いつも細部に行き詰まってしまいます。
- オープンソース コードをデバッグする方法も、コミュニティに貢献する方法もわかりません。
- Gitの使い方がわからない、ソースコードの二次開発が標準化されていない。
学習を通じて得られるコアコンピテンシー:
- Hadoop および Spark のコア ソース コードの構造を理解し、ソース コードの問題を迅速に特定できるようになります。
- Spark SQL のコーディング原則を理解して習得することに重点を置きます。
- コードの二次開発に Git を使用する方法を学びます。
- コミュニティにパッチを提供し、コミュニティ活動に参加する方法を学びます。
内容:3レッスン
- Git の使用法とスキルを紹介します。
- ソース コードを入手し、依存関係の問題を解決するコード環境を準備します。
- Hadoop のコード構造とシステムを紹介し、主要なモジュールを読みます。
- Spark のコード構造とシステムを紹介し、SQL モジュールを順を追って説明します。
- Hadoop および Spark オープンソース コミュニティにパッチを送信する方法、コミュニティ作業に参加する方法など。
モジュール 10: 面接通過: 優秀なビッグデータ開発エンジニアになる方法
指導目標:
ビッグデータの分野は日々変化しており、新しい技術スタックが次々と登場しているため、ビッグデータ開発者に求められる要件は、従来のアプリケーション開発やソフトウェア開発とは異なり、より優れたデータ開発者が求められます。学習能力と研究精神。このモジュールでは以下が得られます。
- ビッグデータ エンジニアに必要なハード スキル、ソフト スキル、成長の道筋を理解する。
- ビッグデータに関する実践的な学習方法をマスターし、成長と落とし穴の回避の経験を習得します。
- 実際のビッグデータに関する考え方を開発し、より効率的で使いやすいコードを作成します。
勉強や仕事での問題点:
- 「使用原則」を信じ、「コピー&ペースト」に慣れているため、多くの穴を掘りました。
- ビッグデータに関する考え方が欠如しており、問題の規模を常に誤って見積もっています。コードは問題ないように見えますが、運用環境に導入するとすぐにクラッシュします。
- 多くの場合、学習の方向性がなく、次に何をする必要があるか見当もつかず、研究精神が欠如しています。
- ビッグデータの複雑なテクノロジースタックに陥りやすく、問題を特定して解決策を決定する方法がわかりません。
- 私にはビッグデータに関する実務経験が不足しており、ビッグデータ指向の面接で目立つ方法がわかりません。
学習を通じて得られるコアコンピテンシー:
- 実際のビッグデータ開発の考え方、問題を特定して解決するためのアイデア。
- 新しいテクノロジーの方法論を迅速に調査して習得します。
- 古い技術から栄養素を得る方法。
- 文学の読み方;
- 理論と実践を組み合わせて生産上の問題を解決する方法。
内容:2レッスン
- ビッグデータ分野の歴史、発展、将来の方向性の概要。
- ビッグデータ分野における将来の傾向とキャリアの方向性を抽出して要約する。
- ビッグデータ エンジニアが成長の落とし穴を回避するために必要なソフト スキルと経験。
- ビッグデータの技術的思考を開発する経験を共有する。
- ビッグデータの問題を解決できる状態から質問できる状態になる方法。
- 文献を検索して読む方法、論文から実装までの手順。
- ビッグデータ開発のインタビューに必要なスキルツリーとテクニック。
実践的なプロジェクト
プロジェクト 1: Hadoop クラスターのクラウド ホストの構築と健全性管理
演習目標:
ビッグデータプラットフォームエンジニアの基礎スキルクラウドホストのクラスタ構築を通じて、オープンソースのビッグデータコンポーネントの知識と理解を深め、各モジュールの動作原理を理解することができ、基礎を習得しながら、 HA やフェデレーションなどの高度な知識実践、RBF et al。
核心点:
- Alibaba Cloud サーバーと Docker コンテナに基づいて、Hadoop クラスターと関連コンポーネントの構築をそれぞれ完了します。
- 上記の構築実践を通じて、Hadoop プラットフォーム モジュール全体間の関係と役割を理解し、クラスターのさまざまな指標を学習することでクラスターの健全性を理解することができます。
- このクラスターを通じて、データ プラットフォームのプロセスとエンタープライズ ビッグ データ プラットフォームの自動化作業を学びます。
- 関連するテクノロジー: HDFS、MapReduce、YARN、Docker、Hive、Spark、Prometheus。
プロジェクト2:データ可視化とインタラクティブなセルフサービス分析プラットフォームの構築
実践目標:
ビッグ データ プラットフォーム エンジニアの基本スキル、インタラクティブなセルフサービス分析プラットフォームとデータ視覚化サービスを構築する方法、高可用性と高性能のクエリ サービスを提供する方法を学びます。
核心点:
- インタラクティブな分析プラットフォームの構築を完了します。
- Spark SQL、Presto、Kylin などの OLAP エンジンを使用してオフライン分析プラットフォームを構築します。
- ジョブ フロー管理には Airflow を使用します。
- セッション管理には ThriftServer、JDBC などを使用します。
- HUE、Tableau などを使用してデータ視覚化アプリケーションを構築します。
- 関連するテクノロジー: Presto、ClickHouse、Kylin、Spark SQL、Airflow、Superset、HUE、ThriftServer、HiveServer2。
プロジェクト 3: Spark を使用して大規模な e コマース ユーザー データを分析する
実践的な目標:
データ開発者とデータ アナリストは、Spark コンピューティング エンジンを使用して、ビッグ データ分析手法を実際に習得します。JDBC を通じて、SQL の使用法と最適化、パフォーマンスの問題の発見と改善などを学びます。
核心点:
- Kafka、Spark Streaming、Flink、Spark SQL、Hive、およびその他のコンピューティング エンジンを使用して、実際の大規模な電子商取引ユーザー データを分析します。
- ビッグデータ分野における実際の企業の利用シナリオをシミュレーションし、プログラムやSQLを記述することで対応するデータ分析タスクを完了します。
- 関連するテクノロジー: Spark SQL、Hive、JDBC。
プロジェクト 4: Hadoop と Spark のソース コードの学習
演習の目標:
コア ソース コードを説明し、二次開発の実行方法、Hadoop と Spark のデバッグ方法を学び、学生が開発能力を向上させてブレークスルーできるよう支援します。
核心点:
- Spark SQL ソース コードの構造に焦点を当てて、Hadoop と Spark のコア ソース コードを学びます。
- Spark SQL のソース コード構造を学習することで、データベース アーキテクチャと設計パターンが導き出され、これに基づいて、より複雑なシステム、特にデータ システムの基礎となる設計言語を学習できます。
- 関連するテクノロジー: Hadoop、Spark Internals。