章HadoopのHDFS

 

詳細なプロセスの公式ドキュメントを参照してください。https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/ClusterSetup.html

1.HDFSの利点

2.HDFS欠点

3.hdfsの設計目標

基本的な概念を4.hdfs

5.hdfs操作

6.hdfsファイル読み込み処理

7.hdfsの書き込み処理

8.hdfs機構をコピーします

9.ロードバランシング

10.ラック意識

11.hdfsの直列化機構

 

1.HDFSの利点
1.ハンドル非常に大きなファイル
2.マシンが安価で実行されます
。3.ストリーミング・データ・アクセス

2.HDFS欠点
1.低遅延のデータアクセスに適していない、リアルタイム、低レイテンシーのHBase良く
2.効率的に小さなファイルを大量に保存することができません

設計目標を3.HDFS
1.迅速なハードウェアエラー検出と回復
2スケールデータ
3.移動モバイルデータのコストよりも低い計算コスト

基本的な概念を4.HDFS
1.データは、ブロック
、データブロックがファイルサイズより小さいファイルデータがどのくらいブロック
2のメタデータノード
のプライマリストアのすべてのフォルダおよびファイルのメタデータ、並びに情報のブロック等を含む
ノードデータ3.
実際に格納されたデータを代わりに、ブロックデータとデータブロック記憶された属性データ、及びパリティ情報
メタデータノードから4.
定期editlogのfsimageの主な機能1.名前ノードとき名前ノードの問題を回復するために組み合わせることができます。
ハードディスクのチェックポイントにメモリ内の名前ノードのメタデータ情報を助けるために2。

5.HDFS操作
HDFSの基本的なコマンド形式:
HDFSは、DFSは、<引数> -cmd
ディレクトリ内のファイルを一覧表示
HDFS DFS -ls DIRPATH
フォルダを作成
-mkdir HDFSはDFSをDIRNAME
HDFSはDFS -mkdir -p / dirnameのカスケードフォルダDIRNAME
HDFSにアップロードを
ソースパス-put DFSをHDFS TARGETPATHは
HDFSからファイルをダウンロードする
DFS -get <HDFS DIRPATH> <loaclDirPath> HDFS
ビュー上のファイルの内容がHDFS
HDFS DFS -text <filePathに>
HDFS -cat DFS <filePathに>
各ファイル統計ディレクトリのサイズ
HDFS DFS -du <をdirPathの> バイト単位のファイルサイズ下の統計ディレクトリHDFS上のファイルフォルダを削除するには、DFSをHDFS -rmr <DIRPATH> HDFS DFS -rm -r <DIRPATH> 使用ヘルプHDFS DFS -helpとHDFS <コマンド>







6.HDFSファイル読み込み処理
HDFSのgaifilesystemの場合は、ファイルシステムを得るためのopenメソッドを呼び出すことにより、必要なファイル1.clientを読み込むためのデータファイルがdistributeFileSystemある
ファイルブロックデータノードに格納されたデータを読み出すために取得するには、RPCによって名前ノードを呼び出すために、対応する2.distributeFileSyste上記の
3.client DFSInputStreamは、次のDatanodesを見つける問題がある場合、すべてのデータブロックが読み取られるまで、データブロックを読み続ける、チェックし、最初の最寄りDatanodes、readメソッドを呼び出し、
4が読まれています後近いデータノードはデータの次のブロックの最も近い位置を見つけ、上記の動作が継続
閉じDFSinputSearnを5.clientするデータ読み出し動作の完了後

7.HDFSファイル書き込み処理
ファイルをクリートのdistibutefilesystemを呼び出すことによって作成された1.clientは、
ファイルが既に存在する場合は意志の名前ノードが存在しない場合には、例えば、チェックされた名前空間のファイルシステム内のフォルダを作成し、RPCによって2.distibutefilesystem名前ノード要求を送信しますメタデータレコード用のファイルを作成すると、
そのデータはデータノード保存された勝利の各コピーにキューに書き込まれ、FSDataOutputStreamは、複製因子が3であると仮定すると、内部キューにデータを書き込みますwriteメソッドを呼び出す3.client
4.FSDataOutputStream受信したすべてのデータノードの確認メッセージはデータがキューから削除され、終了時には、確認のキューを保持し
、クライアントがデータを書き込む終了したときに5。データ・ストリームは、関連するリソースを閉じるには、Closeメソッドを呼び出します

8.HDFS機構をコピーします
1.ポリシーのコピー置く
クラスタが提出された場合は、データノード、ディスクが遅すぎる、CPUあまり忙しくないノードではありません選択します。1.最初のコピーを
第二のコピー2:異なるノードの最初のフレームのコピー
第二のコピーの第三のコピー3.同じラック上の異なるノード
2つのコピー係数
複製因子は、いくつかのデータノードがあり、少なく

9.データロードバランシング
しきい値以下のデータノードデータは、データノードは、他のフリーデータノードに移行します。1. 
増加のためのファイル要求は、それがコピーを作成する場合は2、および他のデータクラスタのバランス
3.負荷分散のスクリプトをHadoopの/ binに/ start-balancer.sh

10.ラック意識
異なるラック上のデータブロックに合意された改善されたフォールトトレランスのうち、より好ましいとは別のマシン上で同一のフレーム上の異なるノード1.Hadoopネットワーク条件
枠を設定することができ2.hadoop dfs.network.scriptはデータノードに属し
ツリー構造により、各ラック間の距離を計算することができる3.データノード
デフォルト4.ラックに属し

11.HDFSのシリアライズ
1.シリアライズとデシリアライズ何時?
  1.シリアル化:送信のためのバイトストリームにオブジェクトまたは永続的にネットワーク上に格納されたディスク上に書き込まれた
  2デシリアライズ:オブジェクトにバイトストリーム
  リモートノードによってプロセス間通信の3.Hadoopの複数達成するためのコール(remoteprocedureコール、RPC)
の直列化2.Hadoop
その機能を実現するためにJavaのシリアライズのテレビシリーズを使用しますが、何の比較関数が存在しない、代わりのジャワの比較関数を使用していないのHadoopを

ファイルベースのデータ構造SequencenFile
1.概要
小さなファイルの複数の主な役割は、負担の名前ノードを軽減するために結合されています。
2.特長
1.サポート圧縮:カスタマイズ可能なレコード(記録)とブロック(ブロック)の圧縮に基づきます。
    非圧縮の種類:無圧縮が有効にされていない場合は、各レコードは、その長さ、キーの長さ、キーと値の記録です。
    行圧縮、圧縮部のValのレコード、blockkeyと値が圧縮されます。
  2.ローカリゼーションサポートタスク:ファイルはスライスし、そのためのマップタスク並列処理として開始することができるため
  、低3.難易度:Hadoopのは、APIを提供し、ロジックは単純です

ファイルベースのデータ構造マップファイル
概要1.mapfileの
ソート後SequencenFile番号、二部のデータとインデックス。インデックスファイルのインデックスデータ、メインの各レコードとして レコードのキー値、およびファイルオフセット位置のレコード。マップファイルがアクセスされたときに、それが最初にメモリにロードされ、そしてその後急速インデックスマッピングによってファイルレコードの場所を突き止めます。書き込み2.MapFile 1セットconfigguration 2.取得ファイルシステム3.設定ファイルの出力パス4.mapfile.writer()書きmapfile.write作成5.コールmapfile.write.append追記6.閉じるストリーム3.mapfileを操作を読んで1セットconfigguration 2.ファイルシステム取得します。3.設定ファイルの出力パス4.mapfile.readerを()mapfile.reader書き込みを作成5.クラスのキーの値を取得読み取り6.を7.閉じるストリームを














 

おすすめ

転載: www.cnblogs.com/zhixingweitianxia/p/11715561.html