記事のディレクトリ
序文
Hadoopの動作環境はWindowsまたはLinuxである可能性がありますが、Windowsでの実行効率は非常に低くなります。
以下では、Linux環境でHadoopを構築する方法について説明します。
1.Hadoopの3つの動作環境
Hadoopオペレーティング環境には、ローカルモード、疑似分散モード、完全分散モードの3つのモードがあります。
スタンドアロンモード
默认情况下,Hadoop即处于该模式,用于开发和调式。【不推荐使用】
- 構成ファイルを変更しないでください。
- 分散ファイルシステムの代わりにローカルファイルシステムを使用します。
- Hadoopは、NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager、およびその他のデーモンプロセスを開始しません。Map()タスクとReduce()タスクは、同じプロセスの異なる部分として実行されます。
- これは、MapReduceプログラムのロジックをデバッグして、プログラムの正確性を確保するために使用されます。
疑似分散モード
Hadoop的守护进程运行在本机机器,模拟一个小规模的集群。【电脑配置不高的可以使用】
- ホスト上の小規模クラスターをシミュレートします。このモードでは、Hadoopは分散ファイルシステムを使用します。これは一般にプログラムのデバッグとテストに使用されます。疑似分散は完全分散の特殊なケースとも言えます。
- このモードでは、Hadoopは分散ファイルシステムを使用します。コードデバッグ機能がスタンドアロンモードに追加され、メモリ使用量、HDFS入出力、およびデーモンの相互作用をチェックできるようになりました。Hadoopは、NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManagerを起動します。これらのデーモンプロセスはすべて同じマシンで実行され、独立したJavaプロセスです。
- 構成ファイルを変更する必要があります:core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml。
- ファイルシステムをフォーマットする
完全分散モード(クラスターモード)<今回構築した環境>
Hadoop的运行在由多台主机搭建的集群上,是真正的生产环境。【电脑内存8G及以上就可以配置】
- このモードでは、HadoopはJDK、Hadoop、Zookeeper、およびその他のソフトウェアをすべてのホストにインストールして、接続されたネットワークを形成します。
- ホスト間でSSHパスワードなしのログインを設定し、各スレーブノードによって生成された公開鍵をマスターノードの信頼リストに追加します。
- 構成ファイルを変更する必要があります:core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、hadoop-env.sh。ファイルシステムをフォーマットする
- Hadoopの開始後のプロセス:NameNode、DataNode、ResourceManager、NodeManager、SecondaryNameNode
2.クラスター計画
3.基本的なソフトウェアのインストールが必要
- VMwareのインストール
著作権上の理由により、自分でダウンロードできます。VM16は問題ありません。 - Linuxシステムのインストールで
はCentOs7を使用
します。https: //blog.csdn.net/weixin_45556441/article/details/114382989
リソースのダウンロードhttps://download.csdn.net/download/weixin_45556441/15676799を参照してください。 - リモート接続ツールのインストール
グリーンバージョンのXshellを直接インストールします。
インストールアドレスhttps://download.csdn.net/download/weixin_45556441/15676579