ディレクトリ構造:
基本的な情報のHadoopクラスタを確認してください。1.
1.1クラスタストレージシステム情報をクエリ
1.2コンピューティングリソース情報照会システム
2.アップロードHDFSディレクトリにファイル
2.1には、HDFSファイルシステムを理解します
2.2マスターHDFSの基本的な操作
2.3タスクの実現
最初のMapReduceタスクを実行します。3.
3.1 Hadoopの公式サンプルパッケージを理解します
3.2 MapReduceのタスクを実行しているクラスタに提出
4.複数のMapReduceタスクを管理します
4.1クエリのMapReduceタスク
4.2 MapReduceのタスクの割り込み
5.まとめ
6.放課後の練習
主な背景:統計ユーザーのウェブサイトのログインには、ミッション全体のシステムは、分散、Hadoopクラスタリソース、ファイルストレージをチェックするタスクとコールモニタリングを計算しています。
基本的な情報のHadoopクラスタを確認してください。1.
データストレージHadoopクラスタは、HDFSによって達成されます。HDFSとデータノード名前ノード組成物の複数から構成されているが、分散ファイルシステムを構成しています。ビュー情報HDFSファイルシステムには2つの方法、すなわち、一般的にあり、コマンドラインとブラウザモード。
Hadoopクラスタコンピューティングリソースは、ノードマネージャのResourceManager製剤を介してクラスタのノード間で、及び協力する分配されます。一般のResourceManagerは、Hadoopクラスタコンピューティングリソースを照会するには、ブラウザの監視サービスを介してアクセスすることができます。
1.1クラスタストレージシステム情報をクエリ
名前ノードのポート50070を介してアクセスサービスを監視(1)HDFSは、我々はこのインタフェースを介して操作を見ることができます
コマンドラインを介して、(2)は、HDFS情報を照会することができます。ターミナルサーバークラスタでは、クエリコマンドを入力します
hdfs dfsadmin -report [-live] [-dead] [-decommissioning]
基本情報-LIVE出力ノードとオンライン関連の統計
基本情報-dead出力ノードの障害と関連する統計
無効ノードと関連する統計を-decommissioning基本情報
1.2コンピューティングリソース情報照会システム
(1)コンピューティングリソースを容易のResourceManagerによって現在のクラスタの情報を確認することができます。ポートは8088を入力します。
ポートリソース情報8042のノードビューに(2):
上記に示した情報によれば、あなたは最初にクラスタ上で使用可能なコンピューティングノードは、利用可能なCPUコアとメモリ、及び各ノード独自のCPUとメモリリソースを含む、現在のクラスタコンピューティングリソースを理解することができます。
2.アップロードHDFSディレクトリにファイル
2.1には、HDFSファイルシステムを理解します
HDFSは、オペレーティングシステムのディレクトリの我々の理解と類似しているLinuxの、のような別のファイルシステムです。(あなたは、ウェブ端を通じてファイルのディレクトリ情報を表示することができます)
2.2マスターHDFSの基本的な操作
基本的な操作HDFSファイルシステムの場合は、端末にHDFSコマンドによって達成することができ、「HDFS DFS」コマンドを入力し、新しいディレクトリ、アップロードとダウンロードファイルを作成するなど、HDFSのディレクトリとファイルの管理操作のほとんどは、ビューを完了することができますファイルの内容、ファイルの削除。
(1)は、新しいディレクトリ/ユーザー/ dfstestを作成します。
HDFS DFSダイレクト入力端子には、コマンドに促すことができます。
私たちは、ディレクトリ・パスを作成するためのコマンドを実行します。
注このコマンドは、ホストだけが、私たちは存在しないディレクトリ構造全体の真ん中を埋めるために-p追加できるように、ディレクトリを作成することができます:
hdfs dfs -mkdir -p /user/test/example
その後、我々は、我々はHDFSファイルディレクトリを作成したかのルートを見て:
-
DFSのHDFS [パス]を-ls HDFSファイルシステムは、Linuxと異なっているので、そうHDFSを見るためにコマンドを使用します//
-
-
//は、我々はこのディレクトリを持っていないので、システムを見つけることができないので、私たちはパスを指定したい場合は、[ユーザー名] /パスなした場合、システムが自動的にパス= /家庭に送られますどのように直接使用上のルートディレクトリに注意を払う必要があります/ことができます。
(2)アップロードおよびダウンロードファイル
その後、テストを行うために、新しいフォルダを作成します
①アップロードファイル
タスクのテスト:HDFSは、サーバー上のローカルファイルを使用するようにコマンドをクラスタノードtest1.txtというアップロードされたHDFSディレクトリに/ユーザーで/ dfstest
コマンド:
HDFSのDFS [-copyFromLocal [-f] [ - P] [ - L] <localsrc> <DST>] // HDFSファイルシステムにローカルシステムからファイル、主なパラメータ<localsrc>ローカルパスは、<DST>宛先パスにコピーするコピー HDFSのDFS [-moveFromLocal <localsrc> <DST>] //ファイルシステムにローカルファイルシステムからファイルを移動する主なパラメータ<localsrc>ローカルパスをHDFS、<DST>宛先パスに移動させます HDFSのDFS [-put [-f] [ - P] [ - L] <localsrc> <DST>] HDFSファイルシステムにローカルファイルシステムから//アップロードファイル、ローカルパスへの主なパラメータ<localsrc>、<DST>先のパスにアップロードします
②ファイルのダウンロード
同様に、我々はまた、HDFS中から必要なファイルをダウンロードすることができます
コマンド:
HDFS DFS [-copyTolocal [-p] [ - ignoreCrc] [ - CRC] <SRC> <localdst>] //ローカルファイルシステムへのHDFSファイルシステムからファイルをコピーし、主なパラメータは、<SRC> HDFSのファイルシステムパスのため、<localdst>指向のサブファイル・ストレージ・パス HDFSのDFS [-get [-p] [ - ignoreCrc] [ - CRC] <SRC> <localdst>] //ローカルファイルシステムへのHDFSファイルシステムパス指定されたファイルを取得し、主なパラメータは、<SRC> HDFSファイルシステムのパスに、<localdst>指向の二次ストレージファイルパス
(3)ファイルの内容を表示します
HDFSファイルシステムの内容を表示します。
コマンド:
HDFSのDFS [-cat [-ignoreCrc] <SRC>] // HDFSファイルの内容を確認し、<SRC>指定したファイル・パス HDFSのDFS [-tail [-f] <ファイル>] //チェックは最後の1024バイト、<ファイル>ファイルのパスを指定し、HDFS
例:
(4)ファイルまたはディレクトリを削除
HDFSのDFS [-rm [-f] [ - R] [ - skipTrash <SRC>] HDFS上の// [ファイルの削除、-r再帰的に削除するための主なパラメータ、<SRC>指定したファイル・パスは、削除します HDFSのDFS [-rmdir [--ignore-フェールに非空<DIR>] //ディレクトリを削除する場合は、このコマンドを使用することができ、主なパラメータは、<dir>は指定したディレクトリ・パス
例:
2.3タスクの実現
(1)マスターは、次email_log.txt / testhadoopディレクトリに転送されます。
(2)HDFSファイルシステムへのアップロードファイル/ユーザー/ dftestディレクトリ
(3)ウェブ端にemail_log.txtは、ファイルの内容を確認します
我々は、彼らは、3つの異なるデータノードに格納され、各ブロックは、ファイルの3つのコピーを有している、ファイルが2つのメモリブロック(ファイルサイズ216M)に分割することがわかります。
最初のMapReduceタスクを実行します。3.
ファイルディレクトリ内のデータファイルに対する要求/user/root/email_log.txt演算処理をHDFS、各ユーザのログインのための統計の数、すなわち数は、各電子メールに等しくてもよい得現れる、さらにそれぞれの統計情報として抽象化することができます周波数ワードが表示されます。Hadoopクラスタパッケージがあること、実行された上で、MapReduceのタスク、通常のHadoop jarコマンドが完了し提出します。
3.1 Hadoopの公式サンプルパッケージを理解します
クラスタサーバーのローカルディレクトリ:次のように「$ HADOOP_HOME /共有/ Hadoopの/ MapReduceの/」サンプルパッケージは、このパッケージには、いくつかの一般的なテストモジュールをカプセル化し、「HadoopのMapReduceの--例-2.7.7.jar」で見つけることができます:
multifilewc |
複数のファイルの統計情報のワード数 |
パイ |
アプリケーションアルゴリズム準モンテカルロは、PIπの推定値 |
randomtextwriter |
各データテキストファイル内の10ギガバイトのランダム生成されたノード |
WORDCOUNT |
ワードファイルの周波数の統計情報を入力します。 |
言葉の意味 |
入力ファイル内の単語の平均長さを計算します |
wordmedian |
入力ファイルの中央値計算ワード長 |
wordstandarddeviation |
差分入力ファイルの標準的なワード長を計算します |
このテストでは、データの使用は、統計の数を記録し語数ファイルをemail_log.txt。
3.2 MapReduceのタスクを実行しているクラスタに提出
(1)のMapReduceタスクを提出し、Hadoopのjarコマンドの使用法:
Hadoopのjarファイル<瓶> [mainClass]引数
例としては、個々のパラメータを参照して説明します。
-
HadoopのジャーのHadoop、MapReduceの-例- 2.7 .7.jar WORDCOUNT /user/dftest/email_log.txt /ユーザ/ dftest /出力
-
-
// <ジャー> [mainClassは、それがクラスを使用してパッケージ化された平均]、位置ジャーパッケージである、引数は、出力ファイルのファイル格納ディレクトリ番号を指定して読み出すことができます。
(2)操作ログ次のように
(3)の結果が表示します:
我々は、出力ファイルに生成された2つの新しいファイルを見ることができます:一つは、タスクの実行が完了したことを示す、識別文書で_SUCCESS、であり、他の部分-R-00000、であり、作製したタスクの実行結果の完了後ファイル。
表示部分-R-00000内容:
^ _ ^基本的にタスクを完了しました。
4.複数のMapReduceタスクを管理します
Hadoopのはマルチタスクシステムであり、複数のユーザが同時に、ジョブの複数の複数のデータセットを処理することができます。Hadoopクラスタに提出したタスクの数については、どのような、それを管理するために:私は、クラスタを完了するために、どのタスクを知るにはどうすればよい;実行結果は成功または失敗であり、どのように検査タスクの実際の実装、タスクの実行時間が長すぎる、どのようにある場合それを破りますか?
4.1クエリのMapReduceタスク
推定されたπの値のパッケージを実行するために、本実施形態で使用される(1)PIクラス
-
HadoopのジャーのHadoopのMapReduce - -例- 2.7 .7.jarパイ 10 100
-
-
回数の代表//二つのパラメータそれぞれリア地図マップ、大きなパラメータの値の計算、計算結果の高精度
(2)実行ログ:
ちょうど提出コンピューティングリソースの使用状況を確認するには(3)のMapReduceタスク:
①このページでは、我々はクラスタリソースのリアルタイムの使用状況を見ることができます(実行が完了しているため、初期パラメータのパラメータ)
②のMapReduceタスクリストエクスプローラの表示:
③詳細については、タスクを参照してください。
(4)マルチタスクに提出。
そして、サーバ端末を起動する2順次2つのジョブを提出したクラスタ:パイの語数値と
我々はそれにコンピューティングリソースの割り当てを待っている(別のジョブが待ち状態、コンピューティングリソースの大半を占め、ジョブの実行があり、クラスタ上のコンピューティングリソースの使用を観察することができ、コンピューティングリソースが満たされたときに、それが起動します実行)。
4.2 MapReduceのタスクの割り込み
MapReduceのタスクはに提出され、それが中断される必要があり、いくつかの特別な場合には、例えば、コンピューティングリソースの多くを取って、タスクの実行時間が長すぎる、その異常な手順を発見されました。
「キルアプリケーション」は、上記のWebインタフェースページで決定するオプションを選択でき、選択したアプリケーション・インタフェースは、タスクを中断タスクは、待機中のタスクの実行を終了したことを確認することができ、再びページを更新します。
5.まとめ
この章では、実際の作業とオペレーティングシステムとコンピューティング・リソースをIファイルHadoopクラスタの複数のインスタンスと組み合わせHadoopの知識ベースの動作を説明するだけでなく、MapReduceのタスクが予備的理解を持って提出します。
6.小演習
(1)コマンドラインは出力ディレクトリがすでに存在している指定された場合、結果の実装がされるのMapReduceのHadoopジャータスクを提出する:C
A. B.は、元のディレクトリが自動的に新しいディレクトリC.エラーを作成し、上記の課題D.なしを終了していない上書き
三つの方法1の3、ファイルのアップロードやダウンロードファイル、アップロードファイル、ローカルファイルシステムにファイルをコピーするシステム、HDFS HDFS DFS -mkdir /ユーザー/ dfstest HDFS DFS -copyFromLocal /opt/email_log.txt /ユーザー/ dfstest HDFS DFS -copyFromLocalローカルパスHDFSパス
2、将本地系统文件移动到HDFS文件系统中
hdfs dfs -moveFromLocal /opt/a.txt /user/dfstest
3、将本地系统文件上传到HDFS文件系统中
hdfs dfs -put /opt/c.txt /user/dfstest
注意:上传文件三种方式都可以在hdfs目录下修改文件名 例如:hdfs dfs -put /opt/c.txt /user/dfstest/m.txt
下载文件两种方式
1、将文件从HDFS文件系统复制到本地文件系统
hdfs dfs -copyToLocal /user/dfstest/m.txt /opt/ hdfs dfs -copyToLocal hdfs路径 本地路径
2、获取HDFS文件系统上指定路径的文件到本地文件系统
hdfs dfs -get /user/dfstest/n.txt /opt
図4に示すように、ファイルの内容を表示し
、ビューHDFSファイルの内容を1
HDFS DFS -cat /user/dfstest/a.txt
2、输出HDFS文件最后1024字节
hdfs dfs -tail /user/dfstest/a.txt
5、削除ファイル(ファイルやディレクトリ)
1、HDFS上のファイルの削除は、
DFS -rmファイルのパス注意を#hdfs:主なパラメータは、再帰的な削除のために-r
HDFS DFS -rm -rディレクトリパス
2、删除HDFS上的目录
#hdfs dfs -rmdir 目录路径 目录路径下内容不为空时无法删除
次の章では、^ _ ^のMapReduceプログラミングへの導入となります。