提示:
需要修改hosts文件,文章中使用hostname代替ip地址
需要配置rsync远程同步工具
1)集群部署规划
|
centos01.bkm |
centos02.bkm |
centos03.bkm |
HDFS
扫描二维码关注公众号,回复:
4595092 查看本文章
|
NameNode DataNode |
DataNode |
SecondaryNameNode DataNode |
YARN |
NodeManager |
ResourceManager NodeManager |
NodeManager |
2)配置文件
(1)core-site.xml
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://centos01.bkm:9000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop/data/tmp</value>
</property>
(2)hdfs
hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.7.0_79
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>centos03.bkm:50090</value>
</property>
</configuration>
slaves(注意,不能有空格空行和多余字符)
centos01.bkm
centos02.bkm
centos03.bkm
(3)yarn
yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.7.0_79
yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<!-- reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>centos02.bkm</value>
</property>
</configuration>
(4)mapreduce
mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.7.0_79
mapred-site.xml
<configuration>
<!-- 指定mr运行在yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
3)在集群上分发以上所有文件
cd /opt/hadoop/etc/hadoop
xsync /opt/hadoop/etc/hadoop
4)查看文件分发情况
xcall cat /opt/module/hadoop-2.7.2/etc/hadoop/slaves
5)集群启动及测试
如果集群是第一次启动,需要格式化namenode,如果重新格式化则需要先删除data中数据
bin/hdfs namenode -format
1)启动/停止HDFS:启动后使用jps命令看是否跟规划节点一样
sbin/start-dfs.sh/
sbin/stop-dfs.sh
2)启动/停止yarn:启动后使用jps命令看是否跟规划节点一样
sbin/start-yarn.sh
sbin/stop-yarn.sh
#注意:Namenode和ResourceManger如果不是同一台机器,不能在NameNode上启动 yarn,应该在ResouceManager所在的机器上启动yarn。
上传文件
hadoop fs -put /home/centos/Downloads/hadoop-2.7.7.tar.gz /user/centos/input
如果上传完文件后没有产生备份,则需要查看对应端口是否开放
上传文件后进入data的最深层目录
-rw-r--r--. 1 root root 134217728 Dec 3 21:25 blk_1073741830
-rw-r--r--. 1 root root 1048583 Dec 3 21:25 blk_1073741830_1006.meta
-rw-r--r--. 1 root root 84502793 Dec 3 21:25 blk_1073741831
-rw-r--r--. 1 root root 660187 Dec 3 21:25 blk_1073741831_1007.meta
touch tmp
cat blk_1073741830>>tmp
cat blk_1073741831>>tmp
tar -zxvf tmp
可得到解压后的hadoop-2.7.7.tar.gz