Hadoopの基本的な理論的知識
- Googleが発行した論文に基づくHDFS(Hadoop Distributed File System)の設計と開発
- 他の分散ファイルシステムと同じ特性に加えて、独自の機能もあります。
高いフォールトトレランス:ハードウェアは常に信頼性が低く、
高いスループットです。大量のデータにアクセスするアプリケーションは、高いスループットを提供し、
大きなファイルストレージをサポートします。ストレージTBをサポートしますPBレベルのデータ - HDFSは何に適していますか?
大容量のファイルストレージとアクセス
ストリーミングデータアクセス - HDFSは何に適していませんか?
小さなファイルの大容量ストレージ
ランダム書き込み
低遅延読み取り
HDFSアプリケーションシナリオの例:
-
HDFSは、Hadoopテクニカルフレームワークの分散ファイルシステムであり、独立した物理マシンにデプロイされたファイルを管理します。
-
以下のようなさまざまなシナリオで使用できます。
-
ウェブサイトのユーザー行動データの保存
-
エコシステムデータストレージ
-
気象データの保存
基本的なシステムアーキテクチャ
HDFSアーキテクチャの主要な設計
HDFS高信頼性(HA)
メタデータの永続性
HDFSデータストレージ戦略の構成
-
デフォルトでは、HDFS NameNodeは自動的にDataNodeを選択してデータのコピーを保存します。実際のビジネスでは、次のシナリオが存在します。
-
DataNodeには異なるストレージデバイスが存在します。データは、データを階層的に保存するために適切なストレージデバイスを選択する必要があります
-
DataNodeの異なるディレクトリにあるデータの重要性は異なります。適切なDataNodeノードを保存するには、ディレクトリラベルに従ってデータを選択する必要があります
-
DataNodeクラスターは異種サーバーを使用し、重要なデータは信頼性の高いノードグループに格納する必要があります。
HDFSデータ整合性保証
-
HDFSの主な目的は、格納されたデータの整合性を確保し、各コンポーネントの障害の信頼性に対処することです。
-
障害が発生したデータディスクの複製データを再構築します。DataNodeが定期的にNameNodeへのレポートに失敗した場合、NameNodeはコピーの再構築アクションを開始して、失われたコピーを回復します。
-
クラスターデータバランシング:データバランシングメカニズム。このメカニズムにより、データが各DataNodeに均等に分散されます。
-
メタデータの信頼性保証
-
ロギングメカニズムを使用してメタデータを操作すると、メタデータはアクティブとスタンバイのNameNodeに保存されます。
-
スナップショットメカニズムは、ファイルシステムの一般的なスナップショットメカニズムを実装して、データが誤用された場合でも、ファイルシステムを確実に復元できるようにします。
-
セーフモード:データノードの障害やハードディスクの障害が発生した場合、障害の拡大を防ぐことができます。