Hadoop大数据集群搭建详细教程

一、虚拟机安装

1.安装VMWARE工作站

自行安装vmware 15/16版

2.创建hadoop虚拟机

新建虚拟机

选择典型模式创建

先完成其他配置，后安装系统

选择系统为对应的centos版本

设置虚拟机名字为hadoop1，同时设置虚拟机的路径

分配空间

自定义硬件，安装系统镜像

完成安装

完成虚拟机创建和配置

启动虚拟机，等待读条结束

选择系统语言为中文

安装信息选择，软件选择（默认最小安装会没有可视化图形界面，如需可视化图形可以勾选为GNOME桌面，右侧除智能卡外全可以勾选）

分区默认为自动分区（不会调整分区可以选择默认）

网络配置（可视化图形配置比在终端配置简单，建议在这一步完成配置）

详细网络设置：选择IPV4的DHCP更改为静态地址(手动模式)（IPADDR,GATEWAY,NETMASK,DNS不能照抄，要根据自己硬件网卡虚拟网卡配置）

完成设置后退出到上一级，点击启动，如果出现连接受限或者网线已拔出则为配置错误，正常应如下图出现刚才设置的地址网关和掩码，完成网络配置。

保存退出后主页面出现已连接为成功

点击开始安装，设置用户和超级管理员

默认超级管理员账户名为root，密码选择为root便于记忆

用户设置（建议用户名为虚拟机名字hadoopxx以便区别，密码与用户名相同。因为会有多台hadoop虚拟机，设置不同密码，不利于记忆。可以将用户提升为管理员）

完成设置后等待安装进度条读完（5-10分钟）

完成后重启虚拟机

重启完后，接受许可证协议，完成配置

输入密码后进入系统（如果没装GNOME是直接进入终端黑窗口）

测试网络

输入百度网址，测试网络是否连接

没装GNOME的终端如下测试

到这一步就完成了CENTOS7的安装和基本配置

3.配置CentOS7

关闭系统和内核自动更新

下载安装yum-cron

yum install yum-cron

安装完之后修改配置文件yum-cron.conf

sudo vi /etc/yum/yum-cron.conf

修改如下内容禁用应用更新

update_messages = no
download_updates = no

添加如下代码可以禁用centos7的内核更新

exclude=kernel*
exclude=centos-release*

关闭GNOME桌面的自动息屏

空白屏幕设置为从不

二、Lunix（CentOS命令）

文件操作

改变权限

sudo chmod -R （权限代码）文件/文件夹

创建文件夹

mkdir 文件夹

删除文件（文件夹）

rm -f 文件
rm -rf 文件夹

写入（创建）文件

sudo vi 文件名

# 跳转到用户的home
cd ~ 
# 跳转到根目录/
cd /
# 跳转到上一级
cd ..
# 进入当前目录的文件夹
cd ./文件夹
cd 文件夹
#/开头的路径表示绝对路径 非/开头的路径表示相对路径

# 查看目录内所有文件和文件夹
ls
# 查看目录内所有文件和文件夹的详细信息
ls -l
# 查看目录内的隐藏文件
ls -a

应用卸载

yum -y remove 软件包

用户和组的创建和权限

创建用户和修改密码

useradd 用户名
passwd 用户名

为用户添加sudo权限

给sudoers添加可写权限

chmod -v u+w /etc/sudoers

在sudoers文件中添加用户信息（在## Allow root to run any commands anywher 下）

## Allow root to run any commands anywher 
root ALL=(ALL) ALL 
dev ALL=(ALL) ALL #新增用户信息

取消sudoers写入权限

chmod -v u-w /etc/sudoers

新建工作组

groupadd 组名

新建用户同时添加工作组，注：-g 所属组 -d 家目录 -s 所用的SHELL

useradd -g 组名 用户名

给已有用户添加组

usermod -G 组名 用户名 
或者
gpasswd -a 用户名 组名

补充

查看用户和用户组的方法 
用户列表文件：/etc/passwd 
用户组列表文件：/etc/group 
查看系统中有哪些用户：cut -d : -f 1 /etc/passwd 
查看可以登录系统的用户：cat /etc/passwd | grep -v /sbin/nologin | cut -d : -f 1 
查看某一用户：w 用户名 
查看登录用户：who 
查看用户登录历史记录：last

防火墙

查看防火墙状态

systemctl status firewalld

关闭启用防火墙

systemctl stop firewalld
systemctl start firewalld

关闭selinux

sudo vi /etc/selinux/config
#SELINUX=enforcing
SELINUX=disabled #关闭selinux

系统更新

下载yum-cron

sudo yum install yum-cron

启动yum-cron服务

sudo systemctl enable yum-cron.service 
sudo systemctl start yum-cron.service 
sudo systemctl status yum-cron.service

修改yum-cron配置文件

sudo vi /etc/yum/yum-cron.conf

关闭自动更新

update_messages = no
download_updates = no

忽略内核更新

exclude=kernel*
exclude=centos-release*

关机和重启

关机和取消关机

shutdown
shutdown -c

重启

reboot

网络

查看网络信息

ifconfig

配置网络地址

cd /etc/sysconfig/network-scripts
vi 网卡

systemctl restart network

ping命令

ping -c次数 ip地址
ping -c3 127.0.0.1

修改HOST

sudo vi /etc/hosts

进程监控

显示所有进程

ps -ef

查找指定进程

ps -ef|grep 搜索名称

杀死指定进程

kill -9 pid

显示所有端口号以及程序的pid

netstat -anp

查找指定端口号的程序

netstat -anp|grep 端口号

下载安装FTP

查询是否安装ftp服务

rpm -qa|grep vsftpd

安装ftp服务

yum -y install ftp vsftpd

查看配置文件

rpm -qc vsftpd

拷贝配置文件

cd /etc/vsftpd
sudo cp vsftpd.conf vsftpd.conf.origin

修改配置文件

sudo vi /etc/vsftpd/vsftpd.conf

1.默认配置：
1>允许匿名用户和本地用户登陆。
     anonymous_enable=YES
     local_enable=YES
2>匿名用户使用的登陆名为ftp或anonymous，口令为空；匿名用户不能离开匿名  用户家目录/var/ftp,且只能下载不能上传。
3>本地用户的登录名为本地用户名，口令为此本地用户的口令；本地用户可以在自己家目录中进行读写操作；本地用户可以离开自家目录切换至有权限访问的其他目录，并在权限允许的情况下进行上传/下载。
    write_enable=YES
4>写在文件/etc/vsftpd.ftpusers中的本地用户禁止登陆。
            
2.配置文件格式：  
vsftpd.conf 的内容非常单纯，每一行即为一项设定。若是空白行或是开头为#的一行，将会被忽略。内容的格式只有一种，如下所示
option=value
要注意的是，等号两边不能加空白。
 
3.匿名用户（anonymous）设置
anonymous_enable=YES/NO（YES）
控制是否允许匿名用户登入，YES 为允许匿名登入，NO 为不允许。默认值为YES。
write_enable=YES/NO（YES）
是否允许登陆用户有写权限。属于全局设置，默认值为YES。
no_anon_password=YES/NO（NO）
若是启动这项功能，则使用匿名登入时，不会询问密码。默认值为NO。
ftp_username=ftp
定义匿名登入的使用者名称。默认值为ftp。
anon_root=/var/ftp
使用匿名登入时，所登入的目录。默认值为/var/ftp。注意ftp目录不能是777的权限属性，即匿名用户的家目录不能有777的权限。
anon_upload_enable=YES/NO（NO）
如果设为YES，则允许匿名登入者有上传文件（非目录）的权限，只有在write_enable=YES时，此项才有效。当然，匿名用户必须要有对上层目录的写入权。默认值为NO。
anon_world_readable_only=YES/NO（YES）
如果设为YES，则允许匿名登入者下载可阅读的档案（可以下载到本机阅读，不能直接在FTP服务器中打开阅读）。默认值为YES。
anon_mkdir_write_enable=YES/NO（NO）
如果设为YES，则允许匿名登入者有新增目录的权限，只有在write_enable=YES时，此项才有效。当然，匿名用户必须要有对上层目录的写入权。默认值为NO。
anon_other_write_enable=YES/NO（NO）
如 果设为YES，则允许匿名登入者更多于上传或者建立目录之外的权限，譬如删除或者重命名。（如果anon_upload_enable=NO，则匿名用户 不能上传文件，但可以删除或者重命名已经存在的文件；如果anon_mkdir_write_enable=NO，则匿名用户不能上传或者新建文件夹，但 可以删除或者重命名已经存在的文件夹。）默认值为NO。
chown_uploads=YES/NO（NO）
设置是否改变匿名用户上传文件（非目录）的属主。默认值为NO。
chown_username=username
设置匿名用户上传文件（非目录）的属主名。建议不要设置为root。
anon_umask=077
设置匿名登入者新增或上传档案时的umask 值。默认值为077，则新建档案的对应权限为700。
deny_email_enable=YES/NO（NO）
若是启动这项功能，则必须提供一个档案/etc/vsftpd/banner_emails，内容为email address。若是使用匿名登入，则会要求输入email address，若输入的email address 在此档案内，则不允许进入。默认值为NO。
banned_email_file=/etc/vsftpd/banner_emails
此文件用来输入email address，只有在deny_email_enable=YES时，才会使用到此档案。若是使用匿名登入，则会要求输入email address，若输入的email address 在此档案内，则不允许进入。
 
4.本地用户设置
local_enable=YES/NO（YES）
控制是否允许本地用户登入，YES 为允许本地用户登入，NO为不允许。默认值为YES。
local_root=/home/username
当本地用户登入时，将被更换到定义的目录下。默认值为各用户的家目录。
write_enable=YES/NO（YES）
是否允许登陆用户有写权限。属于全局设置，默认值为YES。
local_umask=022
本地用户新增档案时的umask 值。默认值为077。
file_open_mode=0755
本地用户上传档案后的档案权限，与chmod 所使用的数值相同。默认值为0666。
 
5.欢迎语设置
dirmessage_enable=YES/NO（YES）
如果启动这个选项，那么使用者第一次进入一个目录时，会检查该目录下是否有.message这个档案，如果有，则会出现此档案的内容，通常这个档案会放置欢迎话语，或是对该目录的说明。默认值为开启。
message_file=.message
设置目录消息文件，可将要显示的信息写入该文件。默认值为.message。
banner_file=/etc/vsftpd/banner
当使用者登入时，会显示此设定所在的档案内容，通常为欢迎话语或是说明。默认值为无。如果欢迎信息较多，则使用该配置项。
ftpd_banner=Welcome to BOB's FTP server
这里用来定义欢迎话语的字符串，banner_file是档案的形式，而ftpd_banner 则是字符串的形式。预设为无。
 
6.控制用户是否允许切换到上级目录
在默认配置下，本地用户登入FTP后可以使用cd命令切换到其他目录，这样会对系统带来安全隐患。可以通过以下三条配置文件来控制用户切换目录。
chroot_list_enable=YES/NO（NO）
设置是否启用chroot_list_file配置项指定的用户列表文件。默认值为NO。
chroot_list_file=/etc/vsftpd.chroot_list
用于指定用户列表文件，该文件用于控制哪些用户可以切换到用户家目录的上级目录。
chroot_local_user=YES/NO（NO）
用于指定用户列表文件中的用户是否允许切换到上级目录。默认值为NO。
通过搭配能实现以下几种效果：
①当chroot_list_enable=YES，chroot_local_user=YES时，在/etc/vsftpd.chroot_list文件中列出的用户，可以切换到其他目录；未在文件中列出的用户，不能切换到其他目录。
②当chroot_list_enable=YES，chroot_local_user=NO时，在/etc/vsftpd.chroot_list文件中列出的用户，不能切换到其他目录；未在文件中列出的用户，可以切换到其他目录。
③当chroot_list_enable=NO，chroot_local_user=YES时，所有的用户均不能切换到其他目录。
④当chroot_list_enable=NO，chroot_local_user=NO时，所有的用户均可以切换到其他目录。
 
7.数据传输模式设置
FTP在传输数据时，可以使用二进制方式，也可以使用ASCII模式来上传或下载数据。
ascii_upload_enable=YES/NO（NO）
设置是否启用ASCII 模式上传数据。默认值为NO。
ascii_download_enable=YES/NO（NO）
设置是否启用ASCII 模式下载数据。默认值为NO。
 
8.访问控制设置
两种控制方式：一种控制主机访问，另一种控制用户访问。
①控制主机访问：
tcp_wrappers=YES/NO（YES）
设 置vsftpd是否与tcp wrapper相结合来进行主机的访问控制。默认值为YES。如果启用，则vsftpd服务器会检查/etc/hosts.allow 和/etc/hosts.deny 中的设置，来决定请求连接的主机，是否允许访问该FTP服务器。这两个文件可以起到简易的防火墙功能。
比如：若要仅允许192.168.0.1—192.168.0.254的用户可以连接FTP服务器，则在/etc/hosts.allow文件中添加以下内容：
vsftpd:192.168.0. :allow
all:all :deny
②控制用户访问：
对于用户的访问控制可以通过/etc目录下的vsftpd.user_list和ftpusers文件来实现。
userlist_file=/etc/vsftpd.user_list
控制用户访问FTP的文件，里面写着用户名称。一个用户名称一行。
userlist_enable=YES/NO（NO）
是否启用vsftpd.user_list文件。
userlist_deny=YES/NO（YES）
决定vsftpd.user_list文件中的用户是否能够访问FTP服务器。若设置为YES，则vsftpd.user_list文件中的用户不允许访问FTP，若设置为NO，则只有vsftpd.user_list文件中的用户才能访问FTP。
/etc /vsftpd/ftpusers文件专门用于定义不允许访问FTP服务器的用户列表（注意:如果 userlist_enable=YES,userlist_deny=NO,此时如果在vsftpd.user_list和ftpusers中都有某个 用户时，那么这个用户是不能够访问FTP的，即ftpusers的优先级要高）。默认情况下vsftpd.user_list和ftpusers，这两个 文件已经预设置了一些不允许访问FTP服务器的系统内部账户。如果系统没有这两个文件，那么新建这两个文件，将用户添加进去即可。
 
9.访问速率设置
anon_max_rate=0
设置匿名登入者使用的最大传输速度，单位为B/s，0 表示不限制速度。默认值为0。
local_max_rate=0
本地用户使用的最大传输速度，单位为B/s，0 表示不限制速度。预设值为0。
 
10.超时时间设置
accept_timeout=60
设置建立FTP连接的超时时间，单位为秒。默认值为60。
connect_timeout=60
PORT 方式下建立数据连接的超时时间，单位为秒。默认值为60。
data_connection_timeout=120
设置建立FTP数据连接的超时时间，单位为秒。默认值为120。
idle_session_timeout=300
设置多长时间不对FTP服务器进行任何操作，则断开该FTP连接，单位为秒。默认值为300 。
 
11.日志文件设置
xferlog_enable= YES/NO（YES）
是否启用上传/下载日志记录。如果启用，则上传与下载的信息将被完整纪录在xferlog_file 所定义的档案中。预设为开启。
xferlog_file=/var/log/vsftpd.log
设置日志文件名和路径，默认值为/var/log/vsftpd.log。
xferlog_std_format=YES/NO（NO）
如果启用，则日志文件将会写成xferlog的标准格式，如同wu-ftpd 一般。默认值为关闭。
log_ftp_protocol=YES|NO（NO）
如果启用此选项，所有的FTP请求和响应都会被记录到日志中，默认日志文件在/var/log/vsftpd.log。启用此选项时，xferlog_std_format不能被激活。这个选项有助于调试。默认值为NO。
 
12.定义用户配置文件
在vsftpd中，可以通过定义用户配置文件来实现不同的用户使用不同的配置。
user_config_dir=/etc/vsftpd/userconf
设置用户配置文件所在的目录。当设置了该配置项后，用户登陆服务器后，系统就会到/etc/vsftpd/userconf目录下，读取与当前用户名相同的文件，并根据文件中的配置命令，对当前用户进行更进一步的配置。
例 如：定义user_config_dir=/etc/vsftpd/userconf，且主机上有使用者 test1,test2，那么我们就在user_config_dir 的目录新增文件名为test1和test2两个文件。若是test1 登入，则会读取user_config_dir 下的test1 这个档案内的设定。默认值为无。利用用户配置文件，可以实现对不同用户进行访问速度的控制，在各用户配置文件中定义local_max_rate=XX， 即可。
 
13.FTP的工作方式与端口设置
FTP有两种工作方式：PORT FTP（主动模式）和PASV FTP（被动模式）
listen_port=21
设置FTP服务器建立连接所监听的端口，默认值为21。
connect_from_port_20=YES/NO
指定FTP使用20端口进行数据传输，默认值为YES。
ftp_data_port=20
设置在PORT方式下，FTP数据连接使用的端口，默认值为20。
pasv_enable=YES/NO（YES）
若设置为YES，则使用PASV工作模式；若设置为NO，则使用PORT模式。默认值为YES，即使用PASV工作模式。
pasv_max_port=0
在PASV工作模式下，数据连接可以使用的端口范围的最大端口，0 表示任意端口。默认值为0。
pasv_min_port=0
在PASV工作模式下，数据连接可以使用的端口范围的最小端口，0 表示任意端口。默认值为0。
 
14.与连接相关的设置
listen=YES/NO（YES）
设 置vsftpd服务器是否以standalone模式运行。以standalone模式运行是一种较好的方式，此时listen必须设置为YES，此为默 认值。建议不要更改，有很多与服务器运行相关的配置命令，需要在此模式下才有效。若设置为NO，则vsftpd不是以独立的服务运行，要受到xinetd 服务的管控，功能上会受到限制。
max_clients=0
设置vsftpd允许的最大连接数，默认值为0，表示不受限制。若设置为100时，则同时允许有100个连接，超出的将被拒绝。只有在standalone模式运行才有效。
max_per_ip=0
设置每个IP允许与FTP服务器同时建立连接的数目。默认值为0，表示不受限制。只有在standalone模式运行才有效。
listen_address=IP地址
设置FTP服务器在指定的IP地址上侦听用户的FTP请求。若不设置，则对服务器绑定的所有IP地址进行侦听。只有在standalone模式运行才有效。
setproctitle_enable=YES/NO（NO）
设置每个与FTP服务器的连接，是否以不同的进程表现出来。默认值为NO，此时使用ps aux |grep ftp只会有一个vsftpd的进程。若设置为YES，则每个连接都会有一个vsftpd的进程。
 
15.虚拟用户设置
虚拟用户使用PAM认证方式。
pam_service_name=vsftpd
设置PAM使用的名称，默认值为/etc/pam.d/vsftpd。
guest_enable= YES/NO（NO）
启用虚拟用户。默认值为NO。
guest_username=ftp
这里用来映射虚拟用户。默认值为ftp。
virtual_use_local_privs=YES/NO（NO）
当该参数激活（YES）时，虚拟用户使用与本地用户相同的权限。当此参数关闭（NO）时，虚拟用户使用与匿名用户相同的权限。默认情况下此参数是关闭的（NO）。
 
16.其他设置
text_userdb_names= YES/NO（NO）
设置在执行ls –la之类的命令时，是显示UID、GID还是显示出具体的用户名和组名。默认值为NO，即以UID和GID方式显示。若希望显示用户名和组名，则设置为YES。
ls_recurse_enable=YES/NO（NO）
若是启用此功能，则允许登入者使用ls –R（可以查看当前目录下子目录中的文件）这个指令。默认值为NO。
hide_ids=YES/NO（NO）
如果启用此功能，所有档案的拥有者与群组都为ftp，也就是使用者登入使用ls -al之类的指令，所看到的档案拥有者跟群组均为ftp。默认值为关闭。
download_enable=YES/NO（YES）
如果设置为NO，所有的文件都不能下载到本地，文件夹不受影响。默认值为YES。

修改配置文件中的listen=YES 和 listen_ipv6=NO，同时禁用掉ftp日志模式,

chroot_local_user=YES ,chroot_list_enable=YES ,chroot_list_file=/etc/vsftpd/chroot_list
service vsftpd restart
systemctl status vsftpd
systemctl enable vsftpd.service
pasv_enable=YES
pasv_min_port=30000
pasv_max_port=30999

设置防火墙对其他服务器来自30000-30999的请求接受

sudo /sbin/iptables -A INPUT -p tcp -s hadoop1 --dport 5021 -i ens33 -j ACCEPT
sudo /sbin/iptables -A INPUT -p tcp -s hadoop1 --dport 30000:30999 -i ens33 -j ACCEPT

添加ftp用户

sudo useradd -m -d /home/ftpuser -s /sbin/nologin ftpuser
sudo passwd ftpuser

windows远程传输

打开cmd输入ftp centos服务器地址输入ftpuser 和密码ftpuser

ftp终端命令

1.进入ftp环境命令：ftp
2.打开连接：open 192.168.1.106 21
注：（断开连接，close相当于disconnect，但是没有关闭ftp环境）
3.输入用户名：（为空的话输入none）
4.输入密码：（none不用输入密码，直接回车）
注：如果此时用户名或密码错误，但是连接时打开的，可以使用命令 “user 用户名”进入登陆环节
5.查询远程服务器当前路劲：pwd
6.显示远程服务器当前路径下的文件： dir(ls -a和ls -l 也行，ls *通配符)
7.远程服务器切换目录：cd
8.二进制传输:bin
9.上传文件：put(可以直接把文件拖进命令框中，会自动带出文件路径，使用文件的绝对路径也可以上传)
10.下载文件：get
11.打开/关闭交互模式：prompt（批量下载或上传文件前执行该命令，否则上传或下载每个文件都要确
12.批量上传：mput *.txt
13.批量下载：mget * (所有文件)mget *.txt (所有.txt结尾的文件)
14.创建目录：mkdir
15.删除目录：rmdir
16.删除文件：delete
17.批量删除：mdelete *.txt/mdelete *
18.重命名文件：rename a.txt b.txt
19.查看本地当前所在路径，查看路径下的文件：dir (下载文件的本地保存路径)
20.切换本地路径：cd d:\

结束ftp会话并退出ftp环境：bye（相当于quit）

从windows的终端传输文件到centos

报错553

getsebool -a|grep ftp

如果tftp_home_dir ftpd_full_access 和ftpd_use_passive_mode不为on，使用下列命令修改为on

sudo setsebool ftpd_full_access on
sudo setsebool ftpd_use_passive_mode on
sudo setsebool tftp_home_dir on

解决ftpuser传输文件到自己home路径下，其他用户无法使用文件

将ftpuser和hadoop用户加入同一个工作组

sudo usermod -G public hadoop1
sudo usermod -G public ftpuser

将/home/ftpuser的home文件夹所属组从默认的ftpuser改为public
```
sudo chown ftpuser:public /home/ftpuser
```
查看ftpuser的home文件夹权限（默认为drwx------，该权限表示只有自己可读写）
```
ls -l
```
将ftpuser的home文件夹权限改为小组可以读写（777表示最高权限，修改后为drwxrwxrwx）
```
sudo chmod -R 777 ftpuser
```
此时就可以在hadoop1用户下访问ftpuser的home文件夹（可以读写）

SCP拷贝（linux之间）

1、向192.168.10.101推送数据
scp -r /home/swcode/test.txt [email protected]:/home/swcode
2、从192.168.10.100拉取数据
scp -r [email protected]:/home/swcode/test.txt /home/swcode/
3、在192.168.10.101上将192.168.10.100的数据拷贝到192.168.10.102上
scp -r [email protected]:/home/swcode/test.txt [email protected]:/home/swcode/

JAVA安装配置

查看是否有jdk（1.8以上版本）

rpm -qa|grep java

卸载自带的jdk（所有通过上面命令查出的都可以删除，删干净后查询java版本提示命令错误）

rpm -e -nodeps 软件
yum -y 软件

手动安装jdk

tar -zxvf java压缩包

修改文件夹名字

配置环境变量

sudo vi /etc/profile

#set java environment
JAVA_HOME=/home/hadoop1/java
#PATH=$JAVA_HOME/bin:$PATH:.
PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
JRE_HOME=$JAVA_HOME/jre
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
export JAVA_HOME PATH JRE_HOME

刷新配置文件

source /etc/profile

查看jdk版本

java -version

查看JAVA_HOME路径

ls -lrt /etc/alternatives/java

部分java指令

# 显示所有java进程
jps

wget下载器安装

sudo yum install wget

Hadoop安装配置

使用wget下载hadoop镜像（由于证书过期，需要以不安全形式连接）

wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/core/stable2/hadoop-2.10.1.tar.gz --no-check-certificate

在/home/hadoop1/新建文件夹hadoop

mkdir hadoop

将下载的hadoop压缩包移动过去

sudo mv hadoop-2.10.1.tar.gz /home/hadoop1/hadoop

解压hadoop

tar -zxvf hadoop-2.10.1.tar.gz

hadoop环境配置

全局环境变量（/etc/profile和/etc/bashrc）

export HADOOP_HOME=/home/hadoop1/hadoop/hadoop-2.10.1
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

sudo vi /etc/profile
sudo vi /etc/bashrc
#刷新配置文件
source /etc/profile
source /etc/bashrc

输入hadoop version出现版本信息及配置全局环境成功

安装配置SSH免密远程登录

修改端口(启用端口22)
```
sudo vi /etc/ssh/sshd_config
```

修改防火墙22端口

sudo firewall-cmd --zone=public --add-port=22/tcp --permanent

重启防火墙
systemctl restart firewalld.service

重新载入配置
firewall-cmd --reload

查看 public 区域下所有已打开的端口
firewall-cmd --zone=public --list-ports

重启服务
```
sudo systemctl restart sshd
```
生成密钥（回车）
```
ssh-keygen -t rsa
```

设置公钥(进入.ssh隐藏文件夹)

cd /home/hadoop1/.ssh
cat id_rsa.pub >> authorized_keys
sudo chown root:root authorized_keys
sudo chmod 600 authorized_keys

将authorized_keys传输到其他的服务器对应的.ssh文件夹下接受id_rsa.pub，最后保证每台机器都有其余三台的公钥

ssh root@hadoop2 cat ~/.ssh/id_rsa.pub>> authorized_keys 
# scp -r authorized_keys 用户名@host:存储文件地址
scp -r authorized_keys hadoop2@hadoop2:/home/hadoop2/.ssh

修改文件夹和文件属性

sudo chmod -R 700 .ssh
sudo chmod -R 600 .ssh/authorized_keys

测试

#重启ssh后在hadoop1上ssh远程免密hadoop2(第一个hadoop2是用户，第二个是hadoop1的host里配置的hadoop2)
ssh hadoop2@hadoop2 
ssh [email protected]
#成功后exit退出
#如果提示要输入密码，请重复上一步修改文件夹和文件属性

进入/home/hadoop1/hadoop/hadoop-2.10.1/etc/hadoop修改配置文件

重点：xml注释里面不要带中文，否则可能会报错

hadoop-env.sh

修改JAVA_HOME

#hadoop-2.10.1 里面默认为 export JAVA_HOME=${JAVA_HOME} 可以不修改。 如果没有可以添加为export JAVA_HOME=/home/hadoop1/java
sudo vi /home/hadoop1/hadoop/hadoop-2.10.1/etc/hadoop/hadoop-env.sh

core-site.xml

<configuration>
     <!-- 指定hdfs的nameservice为myha01 -->
     <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop1:8020</value>
     </property>
     <!-- 指定hadoop临时目录 -->
     <property>
     	<name>hadoop.tmp.dir</name>
     	<value>/home/hadoop1/hadoop/hadoop-2.10.1/data/hadoopdata/</value>
     </property>
     <!-- 指定zookeeper地址 -->
     <property>
     	<name>ha.zookeeper.quorum</name>
     	<value>hadoop2:2181,hadoop3:2181,hadoop4:2181</value>
     </property>
     <!-- hadoop链接zookeeper的超时时长设置 -->
     <property>
     	<name>ha.zookeeper.session-timeout.ms</name>
     	<value>1000</value>
     	<description>ms</description>
     </property>
</configuration>

hdfs-site.xml

<configuration>
     <!-- 指定副本数 -->
     <property>
     	<name>dfs.replication</name>
     	<value>2</value>
     </property>
     
     <!-- 配置namenode和datanode的工作目录-数据存储目录 -->
     <property>
     	<name>dfs.namenode.name.dir</name>
     	<value>/home/hadoop1/hadoop/hadoop-2.10.1/data/hadoopdata/dfs/name</value>
     </property>
     <property>
     	<name>dfs.datanode.data.dir</name>
    	<value>/home/hadoop1/hadoop/hadoop-2.10.1/data/hadoopdata/dfs/data</value>
     </property>
     
     <!-- 启用webhdfs -->
     <property>
         <name>dfs.webhdfs.enabled</name>
         <value>true</value>
     </property>
     
     <!--指定hdfs的nameservice为myha01，需要和core-site.xml中的保持一致
     例如，如果使用"myha01"作为nameservice ID，
     并且使用"nn1"和"nn2"作为NameNodes标示符-->
     <property>
         <name>dfs.nameservices</name>
         <value>hadoop1</value>
     </property>
     
     <!--dfs.ha.namenodes.[nameservice id]为在nameservice中每一个NameNode的唯一标识符
     配置一个逗号分隔的NameNode ID列表，这将被DataNode识别为所有的NameNode
     myha01下面有两个NameNode，分别是nn1，nn2 -->
     <property>
         <name>dfs.ha.namenodes.hadoop1</name>
         <value>nn1,nn2</value>
     </property>
     <!-- nn1的RPC通信地址 -->
     <property>
         <name>dfs.namenode.rpc-address.hadoop1.nn1</name>
         <value>hadoop2:9000</value>
     </property>
     <!-- nn1的http通信地址 -->
     <property>
         <name>dfs.namenode.http-address.hadoop1.nn1</name>
         <value>hadoop2:50070</value>
     </property>
     <!-- nn2的RPC通信地址 -->
     <property>
         <name>dfs.namenode.rpc-address.hadoop1.nn2</name>
         <value>hadoop3:9000</value>
     </property>
     <!-- nn2的http通信地址 -->
     <property>
         <name>dfs.namenode.http-address.hadoop1.nn2</name>
         <value>hadoop3:50070</value>
     </property>
     
     <!-- 指定 NameNode 的 edits 元数据的共享存储位置。也就是 JournalNode 列表
     该url的配置格式：qjournal://host1:port1;host2:port2;host3:port3/journalId
     journalId推荐使用nameservice，默认端口号是：8485 -->
     <property>
         <name>dfs.namenode.shared.edits.dir</name>
         <value>qjournal://hadoop2:8485;hadoop3:8485;hadoop4:8485/hadoop1</value>
     </property>
     
     <!-- 指定JournalNode在本地磁盘存放数据的位置 -->
     <property>
         <name>dfs.journalnode.edits.dir</name>
         <value>/home/hadoop1/hadoop/hadoop-2.10.1/data/journaldata</value>
     </property>
     
     <!-- 开启NameNode失败自动切换 -->
     <property>
         <name>dfs.ha.automatic-failover.enabled</name>
         <value>true</value>
     </property>
     
     <!-- 配置失败自动切换实现方式 -->
     <property>
     	<name>dfs.client.failover.proxy.provider.hadoop1</name>
         <value>
         org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
         </value>
     </property>
     <!-- 配置隔离机制方法，多个机制用换行分割，即每个机制暂用一行 -->
     <property>
         <name>dfs.ha.fencing.methods</name>
         <value>
             sshfence
             shell(/bin/true)
         </value>
     </property>
     <!-- 使用sshfence隔离机制时需要ssh免登陆 -->
     <property>
         <name>dfs.ha.fencing.ssh.private-key-files</name>
         <value>/home/hadoop1/.ssh/id_rsa</value>
     </property>
     
     <!-- 配置sshfence隔离机制超时时间 -->
     <property>
         <name>dfs.ha.fencing.ssh.connect-timeout</name>
         <value>30000</value>
     </property>
     <property>
         <name>ha.failover-controller.cli-check.rpc-timeout.ms</name>
         <value>60000</value>
     </property>
</configuration>

先拷贝一份mapred-site.xml.template 成 mapred-site.xml

sudo cp mapred-site.xml.template mapred-site.xml

修改mapred-site.xml配置文件

<configuration>
     <!-- 指定mr框架为yarn方式 -->
     <property>
         <name>mapreduce.framework.name</name>
         <value>yarn</value>
     </property>
     
     <!-- 指定mapreduce jobhistory地址 对应服务器的地址 -->
     <property>
         <name>mapreduce.jobhistory.address</name>
         <value>hadoop1:10020</value>
     </property>
     
     <!-- 任务历史服务器的web地址 -->
     <property>
         <name>mapreduce.jobhistory.webapp.address</name>
         <value>hadoop1:19888</value>
     </property>
</configuration>

yarn-site.xml

<configuration>
     <!-- 开启RM高可用 -->
     <property>
         <name>yarn.resourcemanager.ha.enabled</name>
         <value>true</value>
     </property>
     <!-- 指定RM的cluster id -->
     <property>
         <name>yarn.resourcemanager.cluster-id</name>
         <value>yrc</value>
     </property>
     
     <!-- 指定RM的名字 -->
     <property>
         <name>yarn.resourcemanager.ha.rm-ids</name>
         <value>rm1,rm2</value>
     </property>
     
     <!-- 分别指定RM的地址 -->
     <property>
         <name>yarn.resourcemanager.hostname.rm1</name>
         <value>hadoop1</value>
     </property>
     <property>
         <name>yarn.resourcemanager.hostname.rm2</name>
         <value>hadoop4</value>
     </property>
     <!-- 客户端通过该地址向RM提交对应用程序操作 -->
     <property>
         <name>yarn.resourcemanager.address.rm1</name>
         <value>hadoop1:8032</value>
     </property>
     <!--ResourceManager 对ApplicationMaster暴露的访问地址。
     ApplicationMaster通过该地址向RM申请资源、释放资源等。 -->
     <property>
         <name>yarn.resourcemanager.scheduler.address.rm1</name> 
         <value>hadoop1:8030</value>
     </property>
     <!-- RM HTTP访问地址,查看集群信息-->
     <property>
         <name>yarn.resourcemanager.webapp.address.rm1</name>
         <value>hadoop1:8088</value>
     </property>
     <!-- NodeManager通过该地址交换信息 -->
     <property>
         <name>yarn.resourcemanager.resource-tracker.address.rm1</name>
         <value>hadoop1:8031</value>
     </property>
     <!--管理员通过该地址向RM发送管理命令 -->
     <property>
         <name>yarn.resourcemanager.admin.address.rm1</name>
         <value>hadoop1:8033</value>
     </property>
     <property>
         <name>yarn.resourcemanager.ha.admin.address.rm1</name>
         <value>hadoop1:23142</value>
     </property>
     <property>
         <name>yarn.resourcemanager.address.rm2</name>
         <value>hadoop4:8032</value>
     </property>
     <property>
         <name>yarn.resourcemanager.scheduler.address.rm2</name>
         <value>hadoop4:8030</value>
     </property>
     <property>
         <name>yarn.resourcemanager.webapp.address.rm2</name>
         <value>hadoop4:8088</value>
     </property>
     <property>
         <name>yarn.resourcemanager.resource-tracker.address.rm2</name>
         <value>hadoop4:8031</value>
     </property>
     <property>
         <name>yarn.resourcemanager.admin.address.rm2</name>
         <value>hadoop4:8033</value>
     </property>
     <property>
         <name>yarn.resourcemanager.ha.admin.address.rm2</name>
         <value>hadoop4:23142</value>
     </property>
     
     <!-- 指定zk集群地址 -->
     <property>
         <name>yarn.resourcemanager.zk-address</name>
         <value>hadoop2:2181,hadoop3:2181,hadoop4:2181</value>
     </property>
     <property>
         <name>yarn.nodemanager.aux-services</name>
         <value>mapreduce_shuffle</value>
     </property>
     <property>
         <name>yarn.log-aggregation-enable</name>
         <value>true</value>
     </property>
     <property>
         <name>yarn.log-aggregation.retain-seconds</name>
         <value>86400</value>
     </property>
     
     <!-- 启用自动恢复 -->
     <property>
         <name>yarn.resourcemanager.recovery.enabled</name>
         <value>true</value>
     </property>
     
     <!-- 制定resourcemanager的状态信息存储在zookeeper集群上 -->
     <property>
         <name>yarn.resourcemanager.store.class</name>
         <value>
         org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore
         </value>
     </property>
</configuration>

slaves文件
```
hadoop1
hadoop2
hadoop3
hadoop4
```
从每个节点启动
```
hadoop-daemon.sh start journalnode
```

将下列端口的防火墙开放

8020/tcp
2181/tcp -> sudo firewall-cmd --zone=public --add-port=2181/tcp --permanent
9000/tcp
50070/tcp
8485/tcp -> sudo firewall-cmd --zone=public --add-port=8485/tcp --permanent
10020/tcp
19888/tcp
8032/tcp
23142/tcp
8032/tcp
8030/tcp
8031/tcp
8033/tcp
23142/tcp
8088/tcp
2181/tcp



sudo firewall-cmd --rel

查看JPS是否含有journalnode进程

没有就去检查日志
格式化namenode（只能在namenode上，即hadoop2和hadoop3）
```
hadoop namenode -format
```
如果报此类错误No Route to Host from hadoop2/192.168.136.132 to hadoop4:8485 failed，请开启防火墙各台服务器8485端口

格式化zkfc （只能在namenode上，即hadoop2和hadoop3）
```
hdfs zkfc -formatZK
```
提示success及成功

第二台机器格式化时可能会出现提示Proceed formatting /hadoop-ha/hadoop1? (Y or N) 22/02/28 09:50:43 INFO ha.ActiveStandbyElector: Session connected.

输入Y进行下一步
启动hdfs

启动hdfs之前先确定zookeeper已启动
```
zookeeper status
```
启动整个集群
```
start-dfs.sh
```

tomcat服务器安装和配置

在/home/hadoop1/中新建tomcat文件夹

mkdir tomcat

移动tomcat压缩包到tomcat文件夹内

mv apache-tomcat-10.1.0-M10.tar.gz /home/hadoop1/tomcat

解压

tar -zxvf apache-tomcat-10.1.0-M10.tar.gz

重命名

mv apache-tomcat-10.1.0-M10 tomcat-10.1

启动tomcat服务器

进入tomcat的bin目录

cd /home/hadoop1/tomcat/tomcat-8.5/bin

授权

sudo chmod +x /home/hadoop1/tomcat/tomcat-8.5/bin/*.sh

开放8080端口

为了能远程访问centos上的tomcat，需要开启防火墙的8080端口

查看防火墙状态
firewall-cmd --state

--zone=public 作用于公共域
--add-port=8080/tcp 添加tcp协议的端口8080
--permanent 永久生效，没有此参数，该命令只能维持当前服务生命周期
firewall-cmd --zone=public --add-port=8080/tcp --permanent

重启防火墙
systemctl restart firewalld.service

重新载入配置
firewall-cmd --reload

查看 public 区域下所有已打开的端口
firewall-cmd --zone=public --list-ports

tomcat服务器配置

sudo vi /etc/systemd/system/tomcat.service

将下列配置写入tomcat.service

[Unit]
Description=Tomcat8.5
After=syslog.target network.target remote-fs.target nss-lookup.target

[Service]
Type=oneshot
ExecStart=/home/hadoop1/tomcat/tomcat-8.5/bin/startup.sh
ExecStop=/home/hadoop1/tomcat/tomcat-8.5/bin/shutdown.sh
ExecReload=/bin/kill -s HUP $MAINPID
RemainAfterExit=yes

[Install]
WantedBy=multi-user.target

sudo vi /home/hadoop1/tomcat/tomcat-8.5/bin/setenv.sh

# 设置JAVA_HOME
export JAVA_HOME=/home/hadoop1/java
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

export CATALINA_HOME=/home/hadoop1/tomcat/tomcat-8.5
export CATALINA_BASE=/home/hadoop1/tomcat/tomcat-8.5
# 设置Tomcat的PID文件
CATALINA_PID="$CATALINA_BASE/tomcat.pid"
# 添加JVM选项
JAVA_OPTS="-server -XX:PermSize=128M -XX:MaxPermSize=512m -Xms512M -Xmx512M -XX:MaxNewSize=128m"

sudo vi /usr/lib/systemd/system/tomcat.service

[Unit]
Description=tomcat8.5
After=syslog.target network.target remote-fs.target nss-lookup.target

[Service]
Type=forking
PIDFile=/home/hadoop1/tomcat/tomcat-8.5/tomcat.pid
ExecStart=/home/hadoop1/tomcat/tomcat-8.5/bin/startup.sh
ExecReload=/bin/kill -s HUP $MAINPID
ExecStop=/bin/kill -s QUIT $MAINPID
PrivateTmp=true

[Install]
WantedBy=multi-user.target

重载设置

systemctl daemon-reload

启动tomcat服务
```
./startup.sh
```
访问tomcat测试

设置自启动

配置bin/setclassPath.sh,bin/startup.sh,中的JAVA_HOME和JRE_HOME

sudo vi /home/hadoop1/tomcat/tomcat-8.5/bin/setclasspath.sh
sudo vi /home/hadoop1/tomcat/tomcat-8.5/bin/startup.sh
export JAVE_HOME=/home/hadoop1/java
export JRE_HOME=/home/hadoop1/java/jre

新建bin/setenv.sh写入

# tomcat的PID文件
CATALINA_PID="/home/hadoop1/tomcat/tomcat-8.5/tomcat.pid"
# 添加JVM选项
JAVA_OPTS="-server -XX:PermSize=256M -XX:MaxPermSize=1024m -Xms512M -Xmx1024M -XX:MaxNewSize=256m"

设置自启

sudo systemctl enable tomcat.service

查看是否自启

systemctl list-unit-files | grep enabled

zookeeper安装配置（只安装配置三台非主节点）

下载解压安装包

wget https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/stable/apache-zookeeper-3.6.3-bin.tar.gz
tar -zxvf apache-zookeeper-3.6.3-bin.tar.gz 
mv apache-zookeeper-3.6.3-bin zookeeper

修改配置文件

生成配置文件

cd zookeeper/conf 
cp zoo_sample.cfg zoo.cfg

修改配置文件

vi zoo.cfg

修改dataDir路径为hadoop/data/zkdata和dataLogDir为hadoop/log/zklog

新建hadoop/data/zkdata和hadoop/log/zklog

mkdir  /home/hadoop2/hadoop/hadoop-2.10.1/data/zkdata
mkdir  /home/hadoop2/hadoop/hadoop-2.10.1/log/zklog

添加server.1，server.2，server.3的host和端口

server.1=hadoop2:2888:3888
server.2=hadoop3:2888:3888
server.3=hadoop4:2888:3888

进入dataDir路径，新建文件myid，添加本机id（server.1=hadoop2:2888:3888的1）
```
cd /home/hadoop2/hadoop/hadoop-2.10.1/data/zkdata
vi myid 或者 echo 1 > myid
```
```
1
```

配置环境变量

修改.bashrc(个人的)

vi ~/.bashrc
# Zookeeper
export ZOOKEEPER_HOME=/home/hadoop2/zookeeper-3.6.3
export PATH=$PATH:$ZOOKEEPER_HOME/bin

重启配置文件

source ~/.bashrc

开放端口2888和3888

sudo firewall-cmd --zone=public --add-port=2888/tcp --permanent
sudo firewall-cmd --zone=public --add-port=3888/tcp --permanent
sudo firewall-cmd --reload

启动三台服务器上的ZK

#启动服务
zkServer.sh start

#关闭服务
zkServer.sh stop

#查看服务
zkServer.sh status

#查看进程QuorumPeerMain
jps |grep QuorumPeerMain

如果有服务器无法启动可以先尝试启动其他的服务器

启动成功后查看状态（1个Leader ，两个Follower）

三、Hadoop集群启动

流程

启动234服务器的zookeeper
启动1234服务器的hadoop
启动1服务器的hdfs