序文
最近は、その後、私はビデオ研修機関の様々を見つけるためにオンライン行って、低品質のほとんどは、基本的な理論はそれほど単純ではないことがわかっ少し心配して次の大きなデータを、学びたいか、次の言う、その後、コードは問題外、ノックZhaomaohuahuあなたに教えます法律分析ません。最後に、理論からオープンクラスアモイ大学は、ゆっくりと着実な学習を開始見つけます。
Hadoopの原点
HadoopのメインのGoogle Inc.の3つの論文の起源の理論、かつ迅速に世界有数のインターネット企業に適用されます。そのため、Hadoopのビッグデータを学習することは、知識のポイントを中心に開かれていません。今年は、ビッグデータの上昇は、実際にコンピュータ技術の開発から来て、ネットワーク技術は、大量のデータを生成し、クラウド技術は、コンピュータ記憶を可能にし、ビッグデータ技術は、大量のデータの保存を解決するために出荷されなければならないので、コンピューティングリソースは、より一般的になってそしてコンピューティングの問題。
二つのHadoopエコシステム
学習Hadoopのは、代わりにこの機能を実現するために、既存のプロジェクトを使用するのでは、なぜ我々はこの新しいプロジェクトを開発する必要があります、各プロジェクトでのHadoopエコシステムの機能と役割を知っている必要があります。
2.1 HDFS
Hadoopの基礎となるファイルシステムは、ファイル・システムは、それが分散されるという点で従来と異なっています。同時に、既存の分散ファイルシステムと比較して、古いシステムがない利点を持つファイルにそれを配布しました。以下のような:高可用性、高信頼性、高スループット、低コストのサーバーは、マシンの数を増やすことで拡張することができ、構築するために使用することができます。HDFSの記事内の特定の実装レコード。
2.2 HBaseの
HDFSの上に分散データベースシステムの構築。NoSQLデータベースは、別の観点から、カラムに基づいているのNoSQLデータベース鍵ペアを見ることができます。従来のリレーショナルデータベースと比較し、それがスケールを増加させることによって、機械の最大の利点であってもよく、安価なサーバを使用することができます。
2.3ハイブ
分散データウェアハウスの後者のクラスで動作するSQL言語、外部データをインポートすることができます。一般クエリと履歴データの分析のために使用されます。そして、HBaseの異なる、HBaseのは、一般的にリアルタイムでインタラクティブなクエリで使用します。
2.4 MapRuduce
分散コンピューティングフレームワーク、モデル計算のMapRuce元々名前。核となるアイデアは、複数のマシンで同時に計算、小さなコンピューティングコンピューティングの回数に分けることができ、「分割ルール」です。オフラインのバッチ処理に適し。
2.5ストーム
ストリーミングフレームを計算する、バッチ処理ストリーミングデータのMapRuceが完了し、従って、ストリーミングフレームワークを開発することができません。
2.6一般的な大規模なデータ処理要件
- オフラインバッチ特性:履歴データ、大量処理のスループット要件を使用。
- リアルタイムのインタラクティブ処理機能:ユーザー対話的に使用、間の数秒から数分を必要な速度を反映しています。
- データ処理機能ストリーミング:ストリームデータ入力を、処理速度はミリ秒を必要とし、治療後に大半が保存されません。
2.7 Hadoopのコンポーネントの関係
基本的な関係は、HDFSとの根本的なストレージは、コアフレームMapRuduceで計算することです。そしてハイブ、HBaseの、ブタ等は、一般的に組立作業自体は、その後、機能を実現するのMapReduceによって算出コードのMapReduceに変換されます。同時に同じレベルMapRuduceフレームワーク暴風雨処理ストリーミングデータを解決します。処理のために使用するMapReduce HBaseのフレームワークが、しかし、また、リアルタイムのインタラクティブな処理の基本的な要件を達成します。(また、MapReduceの最適化のさまざまを行っているが、徐々に上昇スパーク、問題が存在するのMapReduceが、スパークまだいくつかのギャップに比べていくつかの領域において)。
三のHadoopのインストール
レディ。同じLAN上のLinuxサーバー数は、私は私のゲームに置き換え、この同時に開く3台の仮想マシンでした。
Linuxは、管理と権限の分割を容易にするため、Hadoopのプロジェクトを担当するのHadoopユーザーを作成しました。
JDKをインストールし、公式には、Hadoopのをダウンロードするときに、JDKのバージョン要件を指定する環境変数JDKを設定します
SSH-無料インストールと秘密のログインを設定します。HDFS名前ノードと他のDateNodeの管理ノードとの通信がそうSSHプロトコルに基づいているからです。ドメイン名とマシンが容易な命名のためのhostsファイルを書き込むために使用されます。
- Hadoopのをダウンロードして抽出するために、公式サイトに移動します。Hadoopのは、それぞれ、以下のHadoopの/ etc / Hadoopの/にある設定ファイルを、変更します。
- 奴隷。DNSファイルを変更する前に、あなたがIPを書いていない、ドメイン名に直接書き込むことができるので、DateNodeマシンを書きます。
- コア-site.xmlに。コアHadoopの設定ファイル
fs.defaultFS、デフォルトのホストとポート、ファイルシステム、ファイルシステムは、ここでHDFSです。
システムが失われた再起動後hadoop.tmp.dir一時ファイルのパスをHadoopの、一時ファイルのパスを設定されていないシステムは、使用されます。
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://Master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
</configuration>
- HDFS-site.xmlの。HDFSプロファイル
dfs.namenode.secondary.httpアドレス。SecondNameNodeマシンとポート
dfs.replication。HDFSシステムのファイル番号のコピーを保存します。
dfs.namenode.name.dir、dfs.datanode.data.dir。ファイルシステム内の元の場所に格納された名前ノードとデータノードデータ。
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>Master:50090</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>
- mapred-site.xmlに。MapReuceプロファイル
mapreduce.framework.name。MapReuceリソース管理システム。コンピューティング・リソースの管理を分散、およびそれ以降の不足効率が再び離れて分割フレームワークを開発しますであることが見出された場合に、このオプション糸、元々自体MapReuce。
mapreduce.jobhistory.address。MapReuceクエストログシステム、マシンとポートを指定します。
mapreduce.jobhistory.webapp.address。Webページで使用するマシンとポートタスクロギングシステムは、このWebページを介してシステム内のタスクのログを表示することができます。
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>Master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>Master:19888</value>
</property>
</configuration>
- 糸-site.xmlに。YARNプロファイル
yarn.resourcemanager.hostname。中古機械の糸のResourceManager。これは、全体的なリソースの割り当てと管理を担当しています。
yarn.nodemanager.aux-サービス。あなたはシャッフルは、この構成を使用することで、このようなMapReuceなどいくつかのサービスを、カスタマイズすることができます。我々は現在の行にシャッフルを埋めるために使用されています。
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>Master</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
- Hadoopのは、各スレーブノードにプライマリノードからファイルをコピーするように設定した後、HadoopのMapReduceのとのHADFSのインストールは完了です。(CentOSのシステムは、対応するファイアウォールを閉じるために必要)
他の4つのHadoopのエコシステムのコンポーネントがインストールされています
ユーザーのブログとほぼ同じになります公式ドキュメントを見て、そして基本的なフォーム。ダウンロードエキス - 設定環境変数 - プロファイル構成部品、基本的にxxxx-env.sh、xxx-site.sh、xxx-core.sh、スレーブ、仕事ということでオンデマンドでの設定パラメータのように、意味と特定のパラメータは、パラメータが公式文書は(面白い)理解して見て設定する必要があります。