spark分布式环境搭建(3) hadoop分布式环境安装
目标:
- 安装
hadoop
软件 - 配置
hadoop
软件环境变量 - 启动
hadoop
上传一个hadoop
的压缩包到/opt
目录中
- 解压
hadoop
压缩包tar -zxvf hadoop-2.7.7.tar.gz
- 配置
hadoop
软件环境变量- 修改
hadoop-env.sh
vim /opt/hadoop-2.7.7/etc/hadoop/hadoop-env.sh ## 找到其中的JAVA_HOME,将填上JAVA_HOME的地址
- 修改
slaves
文件
vim /opt/hadoop-2.7.7/etc/hadoop/slaves ## 向其中添加 spark1 spark2 spark3
- 修改
core-site.xml
文件
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://spark1:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/hadoop-2.7.7/tmp/data</value> </property> </configuration>
- 修改
hdfs-site.xml
文件
<configuration> <property> <name>dfs.secondary.http.address</name> <value>spark2:50090</value> </property> <property> <name>dfs.http.address</name> <value>spark1:50070</value> </property> <property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/opt/hadoop-2.7.7/namenodedir</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/opt/hadoop-2.7.7/datadir</value> </property> </configuration>
- 修改
mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
- 修改
yarn-site.xml
<configuration> <!-- Site specific YARN configuration properties --> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.hostname</name> <value>spark1</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> </configuration>
- 修改
- 配置环境变量
vim /etc/profile ## 添加如下 export HADOOP_HOME=/opt/hadoop-2.7.7 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
- 分发配置文件
# 分发配置文件 scp /etc/profile spark2:/etc scp /etc/profile spark3:/etc # 分发hadoop软件包 scp -r /opt/hadoop-2.7.7 spark2:/opt scp -r /opt/hadoop-2.7.7 spark3:/opt ## 每个机器上面,执行一下 source /etc/profile
- 启动
hadoop
启动完毕之后,如果没有问题的话,打开浏览器,输入## 初始化`hadoop`的`namenode` hadoop namenode -format ## 启动hadoop start-all.sh
master
节点的ip
地址加上50070
端口号,看到hadoop
的ui
界面,基本上就没啥问题了
总结:
本次搭建,没有配置高可用,后续有机会的话补上。
至此,hadoop的环境已经搭建完毕,下篇文章搭建spark分布式环境。