Hadoop完全分布式（集群）安装教程【图文并茂】

一.所需软件

虚拟机：Vmware10.0.2.46408，通过百度可自行进行下载，也可通过http://pan.baidu.com/s/1eQtgi1k进行下载

Linux镜像：Centos，可通过下载ios进行安装系统，也可通过http://pan.baidu.com/s/1eQgoXQ6进行下载（该资源为我已经安装好之后的系统文件，解压缩后可通过打开CentOS.vmx来运行，用户名为root，密码为hadoop）

Hadoop版本： hadoop-1.1.2.tar.g，同样，即可自行下载，也可通过我的网盘进行下载http://pan.baidu.com/s/16L1eQ（版本可以自己选择，不同版本之间差异不是特别大，当然建议初学者选用和我相同的版本）

JDK版本：jdk-6u24-linux-i586.bin，JDK是Java运行所需的环境，由于是在虚拟机的Linux中安装Jdk，所以应该下载对应的系统的安装文件（而不是大家常用的windows下的安装文件），下载地址：http://pan.baidu.com/s/1dDq0sHr

其他软件（非必须，但建议使用，可以方便操作）：Pietty，Winsap.其中Pietty是在windows平台下可以登录虚拟机的Linux系统（大家在使用虚拟机的时候，需要经常切换到windows环境中，而且如果是同时开3个虚拟机，切换起来很不方便，通过Pietty可以相当于windows下开启多个窗口，来控制不同的linux虚拟机）。Winsap是方便windows与虚拟机之间进行文件的传递http://pan.baidu.com/s/1hqxLMNq，http://pan.baidu.com/s/1ntwpDZb

二.配置网络

1、我采用的是虚拟机默认的模式，即仅主机模式（Host-only）。Vmvare安装好了之后，会在自己电脑网络适配器设置中多出两个连接

2、右击VMnet1，选择Properties，配置IPV4，我用的是192.168.80.1（当然这个也是可以更改的，不一定要和我相同）

3、通过虚拟机打开安装之后的Linux系统，配置该Linux的网络设置（如果是通过我提供的网盘下载的，可以通过我下面介绍的方法来设置）

右击右上角的小电脑，Edit Conn...然后选中Edit（第一次打开可能还会有一个System的连接，删掉即可），按照下图同样配置该IPV4（选择静态的，其中Address可按照自己的来设置，但Gateway必须要和你之前设置的Vmnet1的IP地址相同）

4、配置好之后，打开终端，输入

service network restart

在windows下打开cmd命令，ping一下该虚拟机的IP地址，如果能ping通，代表已经配置好了。

由于我们是完全分布式的安装，我们准备使用三台虚拟机来构成这个集群，所以要开启三个虚拟机，每个虚拟机的网络都要进行设置，比如我的三个虚拟机的网络设置分别为：192.168.80.101，192.168.80.102，192.168.80.103

三.修改主机名

为啥要修改主机名？主机名类似于域名，比较容易记忆

1、如果以上配置好了之后，我们就可以最小化虚拟机了，然后通过Pietty来登录了。

打开软件之后，输入想要登录的IP地址（比如我想登录第一台虚拟机，对应输入192.168.80.101），其余不用修改，输入用户名密码之后即可登录

2、通过以下命令可以修改主机名为hadoop1，当然主机名也是可以按照自己的来修改

hostname hadoop1

但通过这种方式修改的，仅仅是当前会话生效，在关闭重新打开之后就会还原，所以我们还需要修改一个配置文件

vi /etc/sysconfig/network

修改成HOSTNAME=hadoop1，当然，对应到其他两台虚拟机，也可通过这种方式进行修改主机名。我修改之后的主机名分别为hadoop1，hadoop2，hadoop3

3、配置hosts文件，将主机名和IP绑定

vi /etc/hosts

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.80.101  hadoop1
192.168.80.102  hadoop2
192.168.80.103  hadoop3

将主机名与IP地址对应起来。每个虚拟机都要进行绑定，不仅仅是绑定自己的IP和主机名，也要绑定另外两个，这个时候，就可以通过ping+主机名来互相ping通了。

四.关闭防火墙

关闭防火墙，并设置防火墙不自动开启

service iptables stop

chkconfig iptables off

五.配置SSH免密码登入

关于SSH免密码登入的原理在这就不多说，大家可以查阅一下资料。配置之后可以免密码连入其他的服务器（虚拟机），比如说hadoop1在连入hadoop2的时候就不需要输入密码。

1、通过cd进入root目录，运行命令，一直回车回车~

[root@hadoop1 ~]# ssh-keygen -t rsa

2、完成之后进入.ssh目录，复制pub中的内容到一个新的文件（文件名一定不能出错）

[root@hadoop1 .ssh]# cp id_rsa.pub authorized_keys

3、按照以上操作，对三个虚拟机都采用相同的操作，复制产生authorized_keys这个文件

4、这一步相当的关键，一定要操作对~将三个节点的authorized_keys的内容互相拷贝到对方的此文件中，然后就可以免密码彼此ssh连入了。注意：是每个节点的这个文件都要拷贝，操作完成之后三个节点的authorized_keys的内容应该是相同的。

5、验证

[root@hadoop1 .ssh]# ssh hadoop2

回车，然后输入yes，就可登入hadoop2了。

六.安装JDK和Hadoop

1、打开winsap软件，输入hostname，username，password

登录之后，左边是你的本地的资源，右边是登入的linux系统的目录，可以将下载好的jdk和hadoop安装包直接拖到右边的linux下，我在这将文件拖到root目录下的Downloads文件夹，当然大家也可以自己随意选择。

拷贝到linux之后，我们就可以通过pietty查看到这两个文件了。

2、进入usr目录，新建一个文件夹作为jdk和hadoop的安装目录，

[root@hadoop1 ~]# cd /usr
[root@hadoop1 usr]# mkdir lh
[root@hadoop1 usr]# cd lh

3、将安装包拷贝到该文件夹（当前目录）

[root@hadoop1 lh]# cp /root/Downloads/* .

4、安装jdk，首先要给予jdk安装包执行权限，然后通过“.”来进行安装

[root@hadoop1 lh]# chmod u+x jdk-6u24-linux-i586.bin
[root@hadoop1 lh]# ./jdk-6u24-linux-i586.bin

安装完成之后，目录下会多了一个文件夹，就是安装之后的jdk，这个文件夹名字有点长，不利于以后操作，所以我将其修改为jdk

[root@hadoop1 lh]# mv jdk1.6.0_24 jdk

5、安装hadoop，首先解压hadoop，然后将其文件夹名改为hadoop

[root@hadoop1 lh]# tar -xzvf hadoop-0.20.2.tar.gz
[root@hadoop1 lh]# mv hadoop-0.20.2 hadoop

6、【灰常关键】设置jdk和hadoop的环境变量，这个类似于windows下安装jdk，因为jdk的命令是位于bin目录下，所以我们需要执行的话需要进入到bin下，但如果设置了环境变量，在其他地方也可以执行。hadoop也是如此

vi一下profile文件，然后在空白处输入以下内容，当然目录也是要根据自己的实际情况来，不要直接照抄

[root@hadoop1 lh]# vi /etc/profile
export JAVA_HOME=/usr/lh/jdk
export HADOOP_HOME=/usr/lh/hadoop
export PATH=.:$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

7、验证，输入以下命令

[root@hadoop1 lh]# hadoop version

如果能够打印出hadoop的版本，代表已经配置好了，就可以进行下一步了。同样，我们可以在其他的节点中安装jdk，但hadoop我们可以先不用再其他节点中安装，因为有很多配置文件需要配置，我们可以在一个节点配置好了之后复制到另外的节点，节省工作量。

七.修改hadoop配置文件

1、修改hadoop-env.sh，取掉export JAVA_HOME....前边的#，并且将值修改为你的jdk目录

<span style="white-space:pre">	</span>export JAVA_HOME=/usr/local/jdk/

2、修改core-site.xml

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://hadoop1:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/lh/tmp</value>
    </property>  
</configuration>

其中第一个property的value应该修改成你对应的主机名的，比如说hdfs://hadoop1:9000，其中hadoop1为我准备用于作为namenode的主机名，9000是端口，一般不用修改

3、修改hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
</configuration>

4、修改mapred-site.xml

<configuration>
    <property>
        <name>mapred.job.tracker</name>
        <value>hadoop1:9001</value>
        <description>change your own hostname</description>
    </property>
</configuration>

5、修改masters和slaves文件（这一点不同于伪分布式）

[root@hadoop1 conf]# vi masters
hadoop1

masters中输入你作为namenode的节点，

[root@hadoop1 conf]# vi slaves
hadoop2
hadoop3

slaves中输入作为datanode的节点

6、复制hadoop到其他节点，不要忘记到其他节点验证一下hadoop有木有安装成功~

[root@hadoop1 lh]# scp -r ./hadoop hadoop2:/usr/lh
[root@hadoop1 lh]# scp -r ./hadoop hadoop3:/usr/lh

八.格式化分布式文件系统

[root@hadoop1 lh]# hadoop namenode -format

每个节点都要进入此操作。

八.启动进程

<span style="font-family: Arial, Helvetica, sans-serif; font-size: 12px;"><span style="white-space:pre">	</span>[root@hadoop1 lh]# start-all.sh</span>

1、通过该命令启动，可能会需要你问你yes/no，果断yes~~如果没其他情况，会输出一堆信息，然后就启动成功了~~

2、检测进程启动情况

[root@hadoop1 lh]# jps
30543 Jps
26850 JobTracker
26785 SecondaryNameNode
26649 NameNode

在主节点输入jsp，如果看到这几个进程，代表你启动成功了~然后到另外的节点，输入jsp，会看到Datanode节点。就代表你这个安装已经搞定了。

好了，以上就是hadoop的完全分布式安装步骤~希望大家转载的时候注明出处！谢谢