安装并配置虚拟机

总体思路

需要安装四个虚拟机：master、data1、data2、data3
首先安装并配置data1虚拟机，在该虚拟机上操作四台虚拟机共有的过程，其后将data1虚拟机进行复制拷贝，得到data2、data3、master，在分别在各自虚拟机分别进行设置，该思路可以减小一部分工作量。

安装data1节点

在VMware workstation 15 pro中安装CentOS7最新版本的虚拟机，安装过程略

Hadoop Single Node Cluster的安装

下列操作皆是在data1虚拟机上进行操作

安装JDK

Hadoop 是以Java开发的，必须先安装Java环境
启动终端，输入$ Java -version得到当前系统中的Java版本，若查不到Java版本，执行$ sudo yum install default-jdk进行安装，安装完毕后即可查询Java版本

查询Java安装路径

$ update-alternatives --display Java 将会在终端中显示出Java的安装路径，该路径将在后续过程中使用到

设置SSH无密码登录

Hadoop 是由很多节点组成的，当我们启动Hadoop系统时，NameNode(也就是后续的master服务器)必须要与DataNode(后续的data1、data2、data2三个节点)进行连接，会要求很多次输入密码，为方便后续程序自动进行，最好设置master到data1、data2、data3的SSH无密码登录
SSH无密码登录大致设置思路如下：
前提：安装ssh：$ sudo yum install ssh与rsync：$ sudo yum install rsync

产生SSH Key:$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 该命令将会在当前机器的~/.ssh目录下创建出id_dsa.pub文件，此文件是通过ssh连接到该机器的公钥
在各个子节点如data1、data2、data3上重复上述操作，创建各个节点的公钥
将各节点产生的id_dsa.pub文件加入到master的**~/.ssh/authorized_keys**文件中，如无该文件请自主创建
设置完毕后 master可以无密码通过ssh连接到data1、data2、data3

下载安装Hadoop

去Hadoop的官网进行下载，在选择Hadoop的版本时需要配合后续的Spark版本，否则将会出错，具体版本的选择可以参考网上的资料。因为后续要安装Spark2.0 我们在此选用hadoop-2.6.4版本
从Apache官网上下载完hadoop-2.6.4.tar.gz后解压缩即可：$ sudo tar -zxvf hadoop-2.6.4.tar.gz
接着将解压出来的文件夹复制到 /usr/local/hadoop 中，/usr/local是软件的默认安装路径：sudo mv hadoop-2.6.4 /usr/local/hadoop

设置Hadoop环境变量

运行Hadoop必须设置很多环境变量，如果每次登录时必须重新设置就很麻烦，可以直接修改 ~/.bashrc 文件即可每次登录时会自动运行一次环境变量的设置：$ sudo vi ~/.bashrc
添加下列配置：

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64  
( 注： java 地址，该地址需要根据自己电脑的具体情况进行设置！！！)
(以下可复制)
export HADOOP_HOME=/usr/local/hadoop 
export PATH=$PATH:$HADOOP_HOME/bin 
export PATH=$PATH:$HADOOP_HOME/sbin 
export HADOOP_MAPRED_HOME=$HADOOP_HOME 
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME 
export YARN_HOME=$HADOOP_HOME 
export HADOOP_COMMON_HOME=$HADOOP_HOME 
export HADOOP_HDFS_HOME=$HADOOP_HOME 
export YARN_HOME=$HADOOP_HOME 
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native 
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib" 
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH

最后令该配置生效，执行：$ source ~/.bashrc 重启虚拟机亦可

修改Hadoop的配置设置文件

需要对Hadoop进行配置设置，需要修改的文件有 Hadoop-env.sh、core-site.xml、YARN-site.xml、mapred-site.xml、hdfs-site.xml

更新到 2019. 03.26 12:40 稍后更新

Hadoop Multi Node Cluster的安装

CentOS虚拟机上配置Hadoop+Spark实现大数据分析平台的流程