Hadoop集群安装运行与simple hadoop shell

一、集群安装部署

1、上传hadoop安装包

使用SecureCRT连接到4台客户端机器，在mini1会话窗口按快捷键（Alt+P）打开sftp上传文件窗口，使用put命令上传（或者直接拖动文件到该窗口）

2、解压hadoop安装包并修改配置文件

1、解压安装包

解压命令：

tar -zxvf cenos-6.5-hadoop-2.6.4.tar.gz -C /home/hadoop/apps/

进入hadoop配置文件目录

cd /home/hadoop/apps/hadoop-2.6.4/etc/hadoop/

2、修改配置文件

2.1、集群运行时，是通过ssh启动进程，需要提前配置好Java环境

vi hadoop-env.sh

export JAVA_HOME=/usr/local/jdk1.7.0_45

2.2、修改核心配置文件：core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://mini1:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/tmp/hdpdata</value>
</property>
</configuration>

fs.defaultFS：用于指定hadoop的默认文件系统为HDFS，并通过value中的URI：hdfs://mini1:9000 来指定HDFS的NameNode服务进程所在机器为mini1，及客户端请求NameNode时所用的端口为9000。

hadoop.tmp.dir：用于指定hadoop（包括HDFS）的服务进程在运行过程中存放一些临时数据的目录。

2.3、修改HDFS核心配置文件

vi hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>

<name>dfs.secondary.http.address</name>

</property>

</configuration>

dfs.replication：上传文件到HDFS时所保存的副本文件数量。

dfs.secondary.http.address：指定Secondary NameNode进程所部署的节点。

2.4、修改mapred-site.xml

mv mapred-site.xml.template mapred-site.xml

vi mapred-site.xml

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

mapreduce.framework.name：指定集群运行在yarn上，如果不写，则默认运行在local

2.5、修改yarn-site.xml

<?xml version="1.0"?>
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>mini1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

yarn.resourcemanager.hostname： 指定YARN的老大（ResourceManager）的地址

yarn.nodemanager.aux-services： reducer获取数据的方式

3、将hadoop添加到环境变量

vi /etc/profile

export JAVA_HOME=/usr/local/jdk1.7.0_45
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.6.4
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

4、同步到其它节点

4.1、将配置好的hadoop程序目录拷贝到集群中其他节点

scp -r apps/ mini2:/home/hadoop/

scp -r apps/ mini3:/home/hadoop/

scp -r apps/ mini4:/home/hadoop/

4.2、将环境变量同步到其它节点

scp /etc/profile mini2:/etc/

scp /etc/profile mini3:/etc/

scp /etc/profile mini4:/etc/

3、格式化namenode（是对namenode进行初始化）

NameNode在第一次启动之前，需要生成初始状态的工作目录、元数据镜像文件等，因此，在第一次启动HDFS集群之前，需要用HDFS的格式化命令，来执行上述操作

针对NameNode节点进行初始化：

hdfs namenode -format

出现：

/home/hadoop/hdpdata/dfs/name has been successfully formatted.

即为namenode初始化成功

4、集群启动

这里采用自动化脚本方式启动脚本，也可手动启动，一般集群中机器众多，实际使用多采用甲苯批量启动的方式

start-dfs.sh

start-yarn.sh

也可采用：start-all.sh，系统本身也不推荐，万一HDFS或Yarn启动出错不好排查，分开启动比较好

5、通过web页面查看集群

5.1、NameNode提供了一个查看HDFS集群状态的web服务，绑定的端口默认为50070，因此，我们可以在任何一台能与NameNode节点联网的机器上，使用web浏览器查看HDFS集群状态，如图所示：

访问：http://mini1:50070/

5.2、查看节点进程

[hadoop@mini1 sbin]$ jps
2287 NameNode
2626 ResourceManager
2445 SecondaryNameNode
2900 Jps

[hadoop@mini2 ~]$ jps
2050 DataNode
2284 Jps
2155 NodeManager

节点全部正常，至此，集群部署完毕！

二、通过命令行客户端查看HDFS

1、显示HDFS上的文件信息

[hadoop@mini1 ~]$ hadoop fs -ls /
Found 2 items
-rw-r--r-- 2 hadoop supergroup 7 2018-06-24 01:13 /111.txt
-rw-r--r-- 3 hadoop supergroup 4535347 2018-07-20 06:39 /crecg.log.copy

2、上传文件到HDFS

[hadoop@mini1 ~]$ hadoop fs -put cenos-6.5-hadoop-2.6.4.tar.gz