(学习笔记版)Hadoop入门(一):Hadoop2.7.3完全分布式集群安装

在这里写下安装hadoop2.7.3版本的完全分布式的过程,因为刚开始学习hadoop不久,希望自己把学习的东西记录下来,和大家一起分享,可能有错误的地方,还请大牛们批评指正,在我学习的道路上多提点意见和建议,非常感谢!下面就是安装的过程,我是在我的笔记本里安装了VirtualBox,然后安装了4个虚拟机,一个做master,三个做slave。

1. 安装VirtualBox

    VirtualBox-5.2.12-122591-Win.exe

    当VirtualBox安装完成之后,主机器上会出现一块虚拟网卡,就是使用这个网络和虚拟机进行连接。

    

    查看其IPv4,IP是192.168.56.1,当然可以随便改,我没有改,就用192.168.56.1,子网掩码:255.255.255.0

 

2. 安装Centos

版本:CentOS-7-x86_64-DVD-1511.iso

3. 虚拟机

    设置->网络 调成host only

 

4. vim /etc/sysconfig/network-scripts/ifcfg-enp0s3

    4台机器分别设置的IP和netmask如下,但是准备先设置完master机后,复制出3个,然后再改各自的配置

Hostname

IPADDR

NETMASK

Master

192.168.56.100

255.255.255.0

slave1

192.168.56.101

255.255.255.0

slave2

192.168.56.102

255.255.255.0

slave3

192.168.56.103

255.255.255.0

5. vi /etc/sysconfig/network

4台机器都设置网关:

NETWORKING=yes

GATEWAY=192.168.56.1

6. 重启网络:service network restart

7. 互相ping 测试

    看看相互之间网络是否通的,若不成功,注意防火墙的影响,关闭windows或虚拟机的防火墙。

8. 安装xshell5

9. 安装Xftp6

10. 上传jdk和hadoop

    无界面启动虚拟机,用xshell和xftp把jdk 和hadoop都上传上去,放到/usr/local下

    Jdk:jdk-8u91-linux-x64.rpm

    Hadoop:hadoop-2.7.3.tar.gz

11. 安装jdk和hadoop

    cd /usr/local

    rpm –ivh jdk-8u91-linux-x64.rpm

    默认安装在了usr下,有个Java文件夹

    安装hadoop,其实就是解压,命令:tar –xvf hadoop-2.7.3.tar.gz

    解压之后在local下会有一个hadoop-2.7.3的文件夹,这个名字太长了,给改下名字就叫hadoop,命令:mv hadoop-2.7.3 hadoop 回车。

    接下来,配置hadoop,命令:cd /hadoop/etc/hadoop

  • 配置hadoop的运行环境,告诉hadoop的jdk的位置

          命令:vim hadoop-env.sh

          

  • hadoop的执行命令的路径放到path环境变量中

           命令:vim /etc/profile

          

          记得source /etc/profile,否则不起作用

          输入命令hadoop,如果出现了下面这些帮助信息,说明hadoop也装好了

          

  • shutdown –h now 关掉当前master

12. 安装其他的slave,用master进行复制

  • 右键master,选择复制

          

  • 输入名字,点“下一步”
  • 选择完全复制
  • 再复制一个slave2,slave3,和复制slave1同样操作
  • 因为复制完后,他们的主机名和IP都和master一样,所以要修改他们的主机名和IP地址

          修改主机名命令:hostnamectl set-hostname slave1

          准备修改IP:vim /etc/sysconfig/network-scripts/ifcfg-enp0s3

          将IP改为101

          重启网络服务命令:service network restart

          然后ping 192.168.56.1试一下

  • slave2和slave3都和slave1一样的操作,IP分别是102,103
  • 4台机器都起来,用xshell连接master,再新建连接slave1,slave2,slave3

          注意要修改各自的属性(IP)

          

          

          选择工具中的“发送键输入到所有会话”,这样就能同时操作4个窗口页面,可以同时ping 192.168.56.1,ping 192.168.56.100~103,看互相能否ping通

  • 把所有机器的防火墙关掉:systemctl stop firewalld
  • 把所有防火墙废掉,这样重启也不会再开启防火墙了,命令:systemctl disable firewalld

13. 更改hosts文件

修改命令:vim /etc/hosts

输入:

192.168.56.100 master

192.168.56.101 slave1

192.168.56.102 slave2

192.168.56.103 slave3

14. 准备启动hadoop

现在可以在各个机器上启动Hadoop了,master作为namenode,它其实存储所有文件的名称,记录这些文件存在哪台机器上,它是hadoop的管理者,文件的数据存在datanode上,各个机器上都有备份,一台机器宕机了没关系,其他的有备份,机器不够了可以再扩,如果namenode挂了,还有secondary namenode。

启动hadoop,第一个要写一个配置文件:

首先切换目录:cd /user/local/hadoop/etc/hadoop

文件core-site.xml, 它是配置hadoop的管理者,slave机器上也要配,他们必须知道自己的管理者是谁,是受谁所管理,指明namenode的信息,

修改文件命令:vim core-site.xml

在这里,只需要配置一项内容,就可以启动hadoop了,网上写的特别复杂,其实不用那样,

 在<configuration>中添加下面代码:

<property>

    <name>fs.defaultFS</name>

     <value>hdfs://master:9000</value>

</property>

15. 启动hadoop

  • 将存储namenode所在的文件格式化一下

           hdfs namenode –format

  • 启动hadoop的namenode:hadoop-daemon.sh start namenode
  • 然后jps出现下面信息就是namenode起来了

          

  • 启动datanode

           hadoop-daemon.sh start datanode

  • 然后jps,如果看到进程中出现了datanode,说明已经起来了

           

          到此就over了。

           

 18. 测试

  • 输入命令hdfs dfsadmin –report查看下集群运行
  • 浏览器中输入地址看页面,因为我没改host,所以就先用IP

          http://192.168.56.100:50070/

          

           

20. 关闭节点

  • 关闭datanode命令:hadoop-daemon.sh stop datanode
  • 关闭namenode命令:hadoop-daemon.sh stop namenode

猜你喜欢

转载自www.cnblogs.com/rock77/p/9219135.html