学习Hadoop第一课（Hadoop安装与配置）

步骤一：环境准备

在Hadoop安装与配置之前，需要准备的环境：虚拟机、Linux系统、配置JDK环境变量。
若以上还没准备，请参考以下文章：
1.VMware下载安装及CentOS7下载安装
2.Linux安装jdk1.8和配置环境变量

步骤二：下载

首先我们需要到Apache官网下载我们需要的Hadoop版本，Apache产品官网是：http://archive.apache.org/dist/如下图所示，我们可以看到有很多种产品，这里我们需要的是Hadoop因此我们点击hadoop。
这里写图片描述
点击hadoop–》core–》然后选择要下载的版本
我是下载的最新的稳定版本–》stable
然后点击hadoop-2.9.1.tar.gz进行下载

步骤三：上传并解压

1.在/usr/local/src/目录下为Hadoop创建个目录：mkdir hadoop
2.rz上传：linux与windows 通过SecureCRT进行文件传输方式
3.解压：tar -zxvf hadoop-2.9.1.tar.gz

步骤四：分析解压的hadoop目录

如下图所示：
bin文件夹中存放的是一些可执行的脚本（我们用到的比较多的是hadoop、hdfs、yarn）；
etc存放的是hadoop的配置文件，这个etc跟linux根目录下的etc是不一样的；
include存放的是本地库的一些头文件；
lib存放的是本地库的文件其所依赖的jar包在share目录下；
sbin里面存放的是关于启动和停止相关的内容（如start-all.sh、start-dfs.sh、stop-all.sh、stop-dfs.sh等）；
这里写图片描述

步骤五：修改5个配置文件

接下来我们开始修改5个配置文件了，首先我们进入etc/hadoop的配置文件目录（如下图所示），我们可以看到有很多配置文件。
这里写图片描述

1.修改配置文件hadoop-env.sh

输入命令vim hadoop-env.sh，按回车，我们可以看到该文件的内容，如下图所示，其中有一行是配置JAVA环境变量的，初始值默认是${JAVA_HOME}，我们需要把它改成具体的jdk所在的目录。
这里写图片描述

[root@localhost hadoop]# find / -name jdk
/usr/local/src/jdk
[root@localhost hadoop]# cd /usr/local/src/jdk
[root@localhost jdk]# ll
total 181192
drwxr-xr-x. 8   10  143       255 Mar 15  2017 jdk1.8
-rw-r--r--. 1 root root 185540433 Mar 16  2017 jdk-8u131-linux-x64.tar.gz
[root@localhost jdk]# cd jdk1.8/
[root@localhost jdk1.8]# pwd
/usr/local/src/jdk/jdk1.8
[root@localhost jdk1.8]#

我的JDK路径：/usr/local/src/jdk/jdk1.8
修改如下：
这里写图片描述

2.修改配置文件core-site.xml

添加的内容在当中，需要说明的是，第一个property配置的是HDFS的NameNode的地址（主机名：端口号），第二个property配置的内容用来指定Hadoop运行时产生的文件的存放目录（初始化的tmp目录）。添加完后按ESC键退出编辑模式，输入:wq保存并退出当前配置页面。

<configuration>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://MrZhang:9090</value>
        </property>
        <property>
            <name>hadoop.tmp.dir</name>
            <value>/usr/local/src/hadoop/hadoop-2.9.1/tmp</value>
        </property>
</configuration>

3.修改配置文件hdfs-site.xml

该配置文件用来指定HDFS保存数据副本的数量（现在是伪分布式，所以数量是1，将来的集群副本数量默认是3）

<configuration>
        <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>
</configuration>

4.修改配置文件mapred-site.xml

我们在hadoop目录下发现文件列表中只有mapred-site.xml.template而没有mapred-site.xml，因此我们需要先把mapred-site.xml.template的后缀.template去掉（即重命名）

该配置告诉Hadoop以后mapreduce(MR)运行在YARN上。

<configuration>
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
</configuration>

5.修改配置文件yarn-site.xml

需要说明的是，第一个property配置的内容是NodeManager获取数据的方式shuffle，第二个property配置的内容是指定YARN的ResourceManager的地址。

<configuration>
        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>
        <property>
            <name>yarn.resourcemanager.hostname</name>
            <value>MrZhang</value>
        </property>
</configuration>

至此，修改完了五个配置文件！