Hadoop环境搭建(非伪分布)

VNC连接KVM

1.使用克隆命令将原有的虚拟机克隆下来。

将虚拟机 liwei01 克隆为虚拟机 liwei02

[root@kvm ~]# virt-clone --original code --name master --file /hadoop/kvm/liwei02.qcow2

Code - 原有虚拟机名称

Master - 新创建的虚拟机的名称

File - 将克隆的新虚拟机存放位置

注意:克隆前需要关闭虚拟机,克隆完毕后,一般需要设置虚拟机的网络

virsh destory code(虚拟机名称)  -- 强行关闭虚拟机

2.常用命令

1.查看虚拟机的列表及状态

virsh list --all

2.开启虚拟机

virsh start master(虚拟机名称) 

3.查看虚拟机的端口(端口大的为新创建的虚拟机)

netstat -lnp|grep 590*  

4.使用iptables打开端口命令

iptables -A INPUT -p tcp --dport 5905 -j ACCEPT

iptables -A OUTPUT -p tcp --sport 5905 -j ACCEPT

5.关闭防火墙:

systemctl stop firewalld.service #停止firewall

systemctl disable firewalld.service #禁止firewall 开机启动

 

3.通过vnc软件进行连接

Vnc连接虚拟机成功。

 


 

调整虚拟机配置

 

1.修改主机名

vi /etc/sysconfig/network

NETWORKING=yes

HOSTNAME=master

 

2.修改IP地址

vi /etc/sysconfig/network-scripts/ifcfg-eth0  (后期修改为172.17.23.251)

 

3.重启网络服务

service network restart

 

4.配置主机名和IP地址的映射关系

vi /etc/hosts  (后期修改为172.17.23.251)

 

5.关闭防火墙

service iptables status -- 查看防火墙的状态

Service iptables stop  -- 关闭防火墙

 

6.设置防火墙开机不启动

chkconfig iptables --list  -- 查看防火墙是否开机自启动

Chkconfig iptables off  -- 关闭防火墙开机自启动

 

7.设置网卡

故障发现:

解决方法:

  1. 首先,打开 vi /etc/udev/rules.d/70-persistent-net.rules
  2. 记录下,eth1网卡的mac地址00:0c:29:50:bd:17

3)接下来,打开 vi /etc/sysconfig/network-scripts/ifcfg-eth0

4将 DEVICE="eth0"  改成  DEVICE="eth1"  ,

5将 HWADDR="00:0c:29:8f:89:97" 改成上面的mac地址  HWADDR="00:0c:29:50:bd:17"

6最后,重启网络 # service network restart

 


 

安装JDK

1.上传JDK

mkdir /...

 

2.解压JDK

tar -zxvf  jdk-....tar.gz -C /..(目录)  

 

3.修改环境变量

vi /etc/profile

 

4.重新加载环境变量脚本

source /etc/profile

 

5.验证java是否生效

java -version

 

----------------------------------------------------------------------------------------------------------------------------------

 

安装hadoop

1.上传hadoop安装包

 

2.解压hadoop安装包

mkdir /bigdata  -- 创建存放大数据的文件夹

tar -zxvf hadoop-2.6.5.tar.gz -C /bigdata/   -- 解压

Hadoop安装包中重要的目录:

sbin:启动或停止Hadoop相关服务的脚本

bin:对Hadoop相关服务(HDFS、YARN)进行操作的脚本

etc:hadoop的配置文件目录

share:hadoop的依赖jar包和文档

lib:hadoop的本地库(对数据进行压缩解压缩功能)

 

3.配置Hadoop,修改其中的七个配置文件。

进入到Hadoop的etc目录下:

cd /bigdata/hadoop-2.6.5/etc/hadoop

 

(1)修改第一个配置文件(需要修改JDK的实际位置)

vi hadoop-env.sh

 

(2)修改第二个配置文件

vi core-site.xml

 

(3)修改第三个配置文件

vi hdfs-site.xml

 

(4)修改第四个配置文件

 mv mapred-site.xml.template mapred-site.xml

 vi mapred-site.xml

 

(5)修改第五个配置文件

 vi yarn-site.xml

<!-- 指定yarn的老大(ResourceManager的地址) -->
<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>master</value>
	</property>
	<property>
		<name>yarn.resourcemanager.address</name>
		<value>${yarn.resourcemanager.hostname}:8032</value>
	</property>
	<property>
		<name>yarn.resourcemanager.scheduler.address</name>
		<value>${yarn.resourcemanager.hostname}:8030</value>
	</property>
	<property>
		<name>yarn.resourcemanager.webapp.address</name>
		<value>${yarn.resourcemanager.hostname}:8088</value>
	</property>
	<property>
		<name>yarn.resourcemanager.webapp.https.address</name>
		<value>${yarn.resourcemanager.hostname}:8090</value>
	</property>
	<property>
		<name>yarn.resourcemanager.resource.tracker.address</name>
		<value>${yarn.resourcemanager.hostname}:8031</value>
	</property>
	<property>
		<name>yarn.resourcemanager.admin.address</name>
		<value>${yarn.resourcemanager.hostname}:8033</value>
	</property>
	<property>
		<name>yarn.nodemanager.local-dirs</name>
		<value>/data/hadoop/yarn/local</value>
	</property>
	<property>
		<name>yarn.log-aggregation-enable</name>
		<value>true</value>
	</property>
	<property>
		<name>yarn.nodemanager.remote-app-log-dir</name>
		<value>/data/tmp/logs</value>
	</property>
	<property>
		<name>yarn.log.server.url</name>
		<value>http://master:19888/jobhistory/logs/</value>
		<description>URL for job history server</description>
	</property>
	<property>
		<name>yarn.nodemanager.vmem-check-enabled</name>
		<value>false</value>
	</property>
     <!-- mapreduce 执行shuffle时获取数据的方式 -->
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
	<property>
		<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
		<value>org.apache.hadoop.mapred.ShuffleHandler</value>
	</property>

(6)修改第六个配置文件

vi yarn-env.sh(该文件是YARN框架运行环境的配置)

 

(7)修改第七个配置文件

vi slaves

 

4.格式化NameNode(对HDFS进行初始化,即格式化HDFS)

cd /bigdata/hadoop-2.6.5/bin/

./hdfs namenode -format

由此说明格式化成功。

 

特别注意:如果重新格式化则需要执行如下:

Hadoop重新格式化HDFS:

1.查看htfs-site.xml

dfs.name.dirdfs.data.dir所指定的目录删除

2.查看core-site.xml

Hadoop.tmp.dir所指定的目录删除。

在本案例中则是删除这两个文件夹(其他案例可忽略)

3.重新格式化

cd /bigdata/hadoop-2.6.5/bin/  -- 本案例中则进入这个目录

./hdfs namenode -format  -- 并进行格式化

则发现节点全部复活,高高兴兴

$ 172.17.23.251:50070

$ 172.17.23.251:8088

 

5.集群启动关闭与监控(启动并测试Hadoop)

(1)cd /bigdata/hadoop-2.6.5/

sbin/start-dfs.sh

sbin/start-yarn.sh

(2)使用jps名称检查进程是否存在。

    

(3)访问hdfs的管理界面

打开浏览器输入172.17.23.251:50070

(4)访问yarn的管理界面

     打开浏览输入172.17.23.251:8088 发现无法访问!!!!!草

 

尝试解决(1):

 

尝试解决(2):

禁用IPV6:

打开 /etc/modprode.d/dist.conf:

vi /etc/modprode.d/dist.conf

添加:

alias net-pf-10 off

Alias ipv6 off

并重启服务器。

 

已解决(3)打开浏览输入172.17.23.251:8088

解决过程:之前一直无法访问的原因是将master 和IP地址映射错误导致的(粗心惹的祸呀!!!!)

修改vi /etc/hosts

设置为:172.17.23.251 master

重启服务器,将hadoop的服务启动:

cd /bigdata/hadoop-2.6.5/

sbin/start-dfs.sh

sbin/start-yarn.sh

既可以访问到。


 

配置SSH无密码登录

(1)生成公钥和私钥

ssh-keygen -t rsa 

 

(2)设置hosts文件,在/etc/hosts文件中配置IP与HOSTNAME的映射

    vi /etc/hosts

172.17.23.251  master  -- hosts文件配置中添加配置

 

(3)导入公钥到认证文件,执行ssh-copy-id命令

ssh-copy-id -i /root/.ssh/id_rsa.pub master

(4)验证。

ssh master

无密码登录配置成功。

 

----------------------------------------------------------------------------------------------------------------------------------

 

配置NTP

配置NTP主要是为了进行集群间的时间同步。

 

(1)--  安装该软件

yum install ntp  

 

(2)-- 修改配置文件

vi /etc/ntp.conf  

注释掉server开头的行,并添加:后三行

   

 

service ntpd status  -- 查看ntp服务是否开启

service ntpd start  -- 开启ntp服务

 

 


*   然后子虚拟机进行clone master进行必要的修改(如IP等等..虚拟机的配置前面已经有介绍)


常用命令:

cd /bigdata/hadoop-2.6.5/

1.sbin/start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager

2.sbin/stop-all.sh 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager

3.sbin/start-dfs.sh 启动Hadoop HDFS守护进程NameNode、SecondaryNameNode、DataNode

4.sbin/stop-dfs.sh 停止Hadoop HDFS守护进程NameNode、SecondaryNameNode和DataNode

5.sbin/start-yarn.sh 启动ResourceManager、NodeManager

6.sbin/stop-yarn.sh 停止ResourceManager、NodeManager

 


 

如需特殊情况重启虚拟机KVM:172.17.23.251:

重启虚拟机后:

1.需要开启hadoop服务:

cd /bigdata/hadoop-2.6.5/

sbin/start-dfs.sh

sbin/start-yarn.sh

 

 2.需要开启ntp服务:

service ntpd start

 

--------------------------------------------------------------------------------------------------------------------------------------------------------

 

第一次修改时间:2018/07/29

第二次修改时间:2018/08/01

 

 

 

 

猜你喜欢

转载自blog.csdn.net/qq_40820862/article/details/81408510