3.Spark大型电商项目-大数据环境搭建之-Hadoop(CDH)集群搭建

目录

实验环境

安装 Hadoop

配置文件

在另外两台虚拟机上搭建hadoop

启动hdfs集群

启动yarn集群


(由于本人的设备局限,hadoop环境是项目之前就搭建好的,将本文转过来是保持博文的完整性。)

转载地址:3.环境搭建-Hadoop(CDH)集群搭建

本文主要是在上节CentOS集群基础上搭建Hadoop集群。


实验环境

*本实验项目所需软件均可在百度网盘链接:https://pan.baidu.com/s/19LId1q2oVrpu-zMT4nNjwA
提取码:uxvh 

  •  Hadoop版本:CDH 5.3.6

安装 Hadoop

 上传hadoop文件到/usr/local目录下

è¿éåå¾çæè¿°

解压

tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz

删除tar包

rm -rf hadoop-2.5.0-cdh5.3.6.tar.gz 

重命名

mv hadoop-2.5.0-cdh5.3.6 hadoop

设置环境变量

vi ~/.bashrc 

export HADOOP_HOME=/usr/local/hadoop

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin 

è¿éåå¾çæè¿°

生效设置

source ~/.bashrc

 测试

hadoop

hadoop version

yarn

yarn version

è¿éåå¾çæè¿°

è¿éåå¾çæè¿°

è¿éåå¾çæè¿°

创建/usr/local/data目录

è¿éåå¾çæè¿°

配置文件

修改core-site.xml文件

cd /hadoop/etc/hadoop

ls

vi core-sie.xml

è¿éåå¾çæè¿°

<property>
  <name>fs.default.name</name>
  <value>hdfs://sparkproject1:9000</value>
</property>

è¿éåå¾çæè¿°

修改hdfs-site.xml

<property>
  <name>dfs.name.dir</name>
  <value>/usr/local/data/namenode</value>
</property>
<property>
  <name>dfs.data.dir</name>
  <value>/usr/local/data/datanode</value>
</property>
<property>
  <name>dfs.tmp.dir</name>
  <value>/usr/local/data/tmp</value>
</property>
<property>
  <name>dfs.replication</name>
  <value>2</value>
</property>

修改mapred-site.xml

cp mapred-site.xml.template mapred-site.xml

vi mapred-site.xml

<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>

修改yarn-site.xml

<property>
  <name>yarn.resourcemanager.hostname</name>
  <value>sparkproject1</value>
</property>
<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>

修改workers

sparkproject2

sparkproject3

sparkproject1是主节点,sparkproject2和sparkproject3是从节点

在另外两台虚拟机上搭建hadoop

在sparkproject1上使用scp命令将配置好的文件传输到另外两个虚拟机上

cd /usr/local
scp -r hadoop root@sparkproject2:/usr/local
scp -r hadoop root@sparkproject3:/usr/local
scp ~/.bashrc root@sparkproject2:~/
scp ~/.bashrc root@sparkproject3:~/	

在sparkproject2和sparkproject3上分别执行

source ~/.bashrc

在sparkproject2和sparkproject3的/usr/local目录下创建data目录

cd /usr/local
mkdir data

启动hdfs集群

格式化namenode
在sparkproject1上执行

hdfs namenode –format

启动集群

start-dfs.sh

查看是否启动成功

è¿éåå¾çæè¿°

è¿éåå¾çæè¿°

è¿éåå¾çæè¿°

在浏览器中输入sparkproject1:50070查看状态

è¿éåå¾çæè¿°

上传测试文件

vi hello.txt

Hello world !

hdfs dfs -put hell.txt /hello.txt

在网页端查看上传的文件

è¿éåå¾çæè¿°

è¿éåå¾çæè¿°

è¿éåå¾çæè¿°

启动yarn集群

start-yarn.sh

使用jps检查各节点启动状态,sparkproject1上启动ResourceManager,sparkproject2和sparkproject3节点上启动NodeManager

è¿éåå¾çæè¿°

è¿éåå¾çæè¿°

è¿éåå¾çæè¿°

在浏览器中输入sparkproject1:8088查看
这里写图片描述

è¿éåå¾çæè¿°

至此,hadoop集群搭建完成,下一步将安装hive。

猜你喜欢

转载自blog.csdn.net/someby/article/details/87892877