1、HDFS及び背景を定義します
背景
すべてのデータを下回らないシステムメモリ内のデータ量の増加と、それはより多くのディスク・オペレーティング・システムの管理を割り当てる必要があります
ある特異便利な管理と保守、複数のマシン上のファイルを管理するためのシステムのための緊急の必要性、分散ファイルシステム、株式
HDFSは、単に分散ファイル管理システムです
定義されたHDFS
HDFSは
(Hadoopの分散ファイルシステム)、彼はファイルを格納するためのファイルシステムで、ファイルは、ディレクトリブックで定義されます
次の彼は、その機能を達成するために一緒にサーバの数によって配布され、クラスタ内のサーバは、それぞれの役割を持っています
HDFSの使用シナリオ:
シーンは、複数回の読み出し、およびデータ解析を行うために適した修正ファイルは、サポートされていない、ネットワーク・アプリケーションに適していません
2、長所と短所
利点
1、高い耐障害性
図2に示すように、大規模なデータのために
データスケール:GB、TB、あるいはPBレベルのデータに達したデータを処理することができる
ファイルサイズ:ファイルサイズの百万人以上の数を扱うことができる、数は非常に大きいです
図3は、信頼性を向上させるマルチコピー機構を介して、低コストのマシン上に構築することができます
短所
図1に示すように、そのようなデータ・ストレージ・ミリ秒のようなデータを低レイテンシのアクセスに適していない、それは行うことができません
2は、保存された小さなファイルの数が多いため、効率的にできません
小さな多数のファイルを保存し、彼は名前ノードのファイルのディレクトリを格納するメモリの多くを取るし、情報をブロックします。メモリが限ら名前ノードであるので、これは望ましくありません
保存された小さなファイルは、HDFSの設計目標に違反して、時間を読んでより多くの時間を対処します
3、、同時書き込みをサポートし、ファイルのランダム変更しない
ファイルは一つだけの書き込みを持つことができ、それは、複数のスレッドが書き込みをすることはできません
データはappend(追加)についてのみサポートし、ファイルのランダムな変更をサポートしていません
3、からなるHDFSアーキテクチャ
1、名前ノード(NN):マスターは、監督、管理者である
(1)、HDFSのネームスペース管理
(2)、設定ポリシーのコピー
(3)、管理データブロック(ブロック)のマッピング情報
(4)、顧客のハンドル読み取りおよび書き込み要求の終わり
2、FateNodeは:実際の操作が行われたスレーブ、NamdeNode注文、DataNodesある
実際のデータブロックを格納する、(1)
(2)、データブロックがリード/ライト動作
3、クライアント:クライアント
(1)、文書セグメンテーション。
HDFSファイルのアップロード時間は、ブロックにファイルへのクライアント、及びその後アップロード
名前ノード、取得したログ情報ファイルと相互作用する、(2)
(3)、データノードは、読み取りまたは書き込み、と相互作用データ
(4)、クライアントは、名前ノードをフォーマットするように、特別なコマンドクラウディアHDFS管理を提供
(5)、クライアントHDFSの付加および欠失が操作コマンドによってアクセスすることができます
4、SecondaryNameNode:ホットスタンバイ名前ノードのパーティーを名前ノードではないハング
、それはすぐにせず、名前ノードのサービスを置き換える
、このような名前ノードの編集やFsimage組み合わせるとプッシュジャッキとして、(1)、補助名前ノードは、そのワークロードを共有する
(2)、中を緊急時には、回復NamdNodeを支援すること
4、HDFSファイルブロックサイズ
HDFS私はそれが物理的にブロックストレージ(ブロック)を参照
ブロックサイズは、設定パラメータ(dfs.blocksize)で指定することができ
Hadoop2.xバージョン128Mのデフォルト、古いバージョンは64Mです
为什么块的大小不饿能设置太小,也不能设置太大?
(1)、HDFS的块设置太小,会增加寻址时间,程序一直在找块的开始位置
(2)、如果块设置太大,从磁盘上传输的数据时间会明显大于定位这个块开始位置所需要的时间
导致程序在处理这块数据时,会非常慢
总结:
HDFS的块大小设置主要时取决于磁盘的传输速率