Hadoop-HDFSの概要(1)

HDFSの利点

1.高い耐障害性:
(1)データは自動的に複数のコピーに保存されるため、耐障害性が向上します。
(2)コピーが失われた後、自動的に復元できます。
2.大量のデータの処理に適しています
(1)データスケール:GB、TB、さらにはPBレベルのデータを処理できます。
(2)ファイルサイズ:多数のファイル(百万スケール)を使用できます。
3.安価なマシンでの複数コピーメカニズムにより、信頼性を向上させることができます。

HDFSの欠点

1.ミリ秒のデータアクセスなど、低レイテンシのデータアクセスには適していません。
2.多数の小さなファイルを効率的に保存できません。
(1)ストレージファイルが小さすぎると、NameNodeのメモリを占有して、大量のファイルディレクトリとブロック情報を格納します。NameNodeのメモリは限られているため、望ましくありません。
(2)小さなファイルのアドレス指定時間が読み取り時間を超えるため、HDFS設計の本来の意図に違反します。
3.同時ファイル書き込みをサポートしていません。ファイルはランダムに変更されます。
(1)ファイルは1つだけで書き込むことができ、複数のスレッドで同時に書き込むことはできません。
(2)追加ファイルはサポートされていますが、ランダムなファイル変更はサポートされていません。

HDFS構成アーキテクチャ

1. NameNode:スーパーバイザー、マネージャー
(1)HDFSネームスペースを管理します。
(2)コピー戦略を構成します。
(3)データブロックマッピング情報を管理します。
(4)クライアントの読み取りおよび書き込み要求を処理します。
2. DataNode:スレーブNameNodeはコマンドを発行し、DataNodeは操作を実行します。
(1)実際のデータブロックを保存します。
(2)データブロックの読み取り/書き込み操作を実行します。
3.クライアント:クライアント
(1)ファイルのセグメンテーション。ファイルがHDFSにアップロードされると、クライアントはファイルをブロックに分割してアップロードします。
(2)NameNodeと対話して、ファイル情報を取得します。
(3)DataNodeと対話し、データを読み書きします。
(4)クライアントは、HDFSの追加、削除、変更、チェックなど、いくつかのコマンドを介してHDFSにアクセスできます。
(5)クライアントは、NameNode形式などのいくつかのコマンドを介してHDFSを管理できます。
4.セカンダリNamenode:NameNodeのコールドスタンバイ。NameNodeがダウンしている場合、サービスを提供するためにNameNodeをすぐに置き換えることはできません。
(1)NameNodeがワークロードを共有するのを支援します。
(2)緊急時には、NameNodeの復元を支援できます

HDFSファイルのブロックサイズ*

HDFSのファイルは物理的にブロック(Block)に格納され、ブロックサイズは構成パラメーター(dfs.blocksize)で指定できます。デフォルトのサイズは2.xバージョンでは128M、旧バージョンでは64Mです。
アドレッシング時間が10msの場合、ターゲットを見つけるのに必要な時間は10msです。
アドレス指定時間は送信時間の1%であり、これが最良の状態です。したがって、伝送時間= 10ms / 0.01 = 1000ms = 1s。
現在のディスク伝送速度は通常100MB / sです。
ブロックサイズ= 1s * 100MB / s = 100MBを設定して
ください!HDFSブロックの設定が小さすぎると、アドレス指定時間が長くなり、プログラムは常にブロックの先頭を探します
ブロック設定が大きすぎると、ディスクからの送信時間がブロックを見つける時間よりも大幅に長くなり、このデータブロックを処理するときにプログラムが非常に遅くなります
HDFSのブロックサイズ設定は、ディスク転送速度によって異なります。

おすすめ

転載: blog.csdn.net/qq_45092505/article/details/104913046