Java大数据之路--Hadoop(2)伪分布式安装

伪分布式安装

目录

伪分布式安装

一、步骤

1、关闭防火墙

2、配置主机名

3、配置hosts文件,将主机名和ip地址进行映射

4、配置ssh进行免密互通

5、下载文件

6、配置hadoop-env.sh

7、配置 core-site.xml

          8、配置 hdfs-site.xml

         9、配置yarn-site.xml

         10、配置slaves

11、配置hadoop的环境变量

12、格式化namenode:hadoop namenode -format

13、启动hadoop:start-all.sh

二、注意事项

三、 常见问题


一、步骤

1、关闭防火墙

临时关闭:service iptables stop

永久关闭:chkconfig iptables off

2、配置主机名

需要注意的是Hadoop的集群中的主机名不能有_。如果存在_会导致Hadoop集群无法找到这群主机,从而无法启动!

编辑network文件:vim /etc/sysconfig/network

将HOSTNAME属性改为指定的主机名,例如:HOSTNAME=hadoop01

让network文件重新生效:source /etc/sysconfig/network

 

3、配置hosts文件,将主机名和ip地址进行映射

编辑hosts文件:vim /etc/hosts

将主机名和ip地址对应,例如:10.42.3.8  hadoop01

4、配置ssh进行免密互通

生成自己的公钥和私钥,生成的公私钥将自动存放在/root/.ssh目录下:ssh-keygen

把生成的公钥拷贝到远程机器上,格式为:ssh-copy-id [user]@host,例如:ssh-copy-id root@hadoop01

5、下载文件

  1. 重启Linux让主机名的修改生效:reboot
  2. 安装JDK
  3. 上传或者下载Hadoop安装包到Linux中
  4. 解压安装包:tar -xvf hadoop-2.7.1_64bit.tar.gz
  5. 进入Hadoop的安装目录的子目录etc/hadoop,配置Hadoop:cd hadoop2.7.1/etc/hadoop

6、配置hadoop-env.sh

  1. 编辑hadoop-env.sh:vim hadoop-env.sh
  2. 修改JAVA_HOME的路径,修改成具体的路径。例如:export JAVA_HOME=/home/software/jdk1.8
  3. 修改HADOOP_CONF_DIR的路径,修改为具体的路径,例如:export HADOOP_CONF_DIR=/home/software/hadoop-2.7.1/etc/hadoop
  4. 保存退出文件
  5. 重新加载生效:source hadoop-env.sh

7、配置 core-site.xml

vim core-site.xml

		<property>
		    <!-- 指定HDFS中的主节点 - namenode -->
		    <name>fs.defaultFS</name>               
		    <value>hdfs://hadoop01:9000</value>
		</property>
		<property>
		    <!-- 执行Hadoop运行时的数据存放目录 -->
		    <name>hadoop.tmp.dir</name>
		    <value>/home/software/hadoop-2.7.1/tmp</value>
		</property>

8、配置 hdfs-site.xml

将mapred-site.xml.template复制为mapred-site.xml:cp mapred-site.xml.template mapred-site.xml

编辑mapred-site.xml:vim mapred-site.xml

		<property>
		    <!-- 指定将MapReduce在Yarn上运行  -->
		    <name>mapreduce.framework.name</name>
		    <value>yarn</value>
		</property>

9、配置yarn-site.xml

编辑yarn-site.xml:vim yarn-site.xml

		<!-- 指定Yarn的主节点 - resourcemanager -->
		<property>
		    <name>yarn.resourcemanager.hostname</name>
		    <value>hadoop01</value>
		</property>
		<!-- NodeManager的数据获取方式 -->
		<property>
		    <name>yarn.nodemanager.aux-services</name>
		    <value>mapreduce_shuffle</value>
		</property>

10、配置slaves

  1. 编辑slaves:vim slaves
  2. 添加从节点信息,例如:hadoop01
  3. 保存退出

11、配置hadoop的环境变量

  1. 编辑profile文件:vim /etc/profile
  2. 添加Hadoop的环境变量,例如:
    1. export HADOOP_HOME=/home/software/hadoop-2.7.1      
    2. export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
  3. 保存退出
  4. 重新生效:source /etc/profile

12、格式化namenode:hadoop namenode -format

13、启动hadoop:start-all.sh

二、注意事项

1、如果Hadoop的配置没有生效,那么需要重启Linux

2、在格式化的时候,会有这样的输出:Storage directory /tmp/hadoop-root/dfs/name has been successfully formatted。如果出现这句话,说明格式化成功

3、Hadoop如果启动成功,JPS会出现5个进程:Namenode,Datanode,Secondarynamenode,ResourceManager,NodeManager

4、Hadoop启动成功后,可以通过浏览器访问HDFS的页面,访问地址为:IP地址:50070

5、Hadoop启动成功后,可以通过浏览器访问Yarn的页面,访问地址为:http://IP地址:8088

三、 常见问题

1、执行Hadoop指令,比如格式化:hadoop namenode -format 出现:command找不到错误

解决方案:检查:/etc/profile的Hadoop配置

2、少HFDS相关进程,比如少namenode,datanode

解决方案:可以去Hadoop 安装目录下的logs目录,查看对应进程的启动日志文件。

方式一:①先停止HDFS相关的所有的进程(stop-dfs.sh 或 kill -9)②再启动HDFS(start-dfs.sh)

方式二:①先停止HDFS相关的所有的进程 ②删除元数据目录 ③重新格式化:hadoop namenode -format④启动Hadoop:start-all.sh

3、如果XXXXManager,那么修改mapred,yarn,重新启动

4、命令找不到,hadoop-env.sh配置错误,profile配置错了

 

猜你喜欢

转载自blog.csdn.net/a34651714/article/details/102806605