CentOS虚拟机上配置Hadoop+Spark实现大数据分析平台的流程

安装并配置虚拟机

总体思路

需要安装四个虚拟机:master、data1、data2、data3
首先安装并配置data1虚拟机,在该虚拟机上操作四台虚拟机共有的过程,其后将data1虚拟机进行复制拷贝,得到data2、data3、master,在分别在各自虚拟机分别进行设置,该思路可以减小一部分工作量。

安装data1节点

在VMware workstation 15 pro中安装CentOS7最新版本的虚拟机,安装过程略

Hadoop Single Node Cluster的安装

下列操作皆是在data1虚拟机上进行操作

安装JDK

Hadoop 是以Java开发的,必须先安装Java环境
启动终端,输入$ Java -version得到当前系统中的Java版本,若查不到Java版本,执行$ sudo yum install default-jdk进行安装,安装完毕后即可查询Java版本

查询Java安装路径

$ update-alternatives --display Java 将会在终端中显示出Java的安装路径,该路径将在后续过程中使用到

设置SSH无密码登录

Hadoop 是由很多节点组成的,当我们启动Hadoop系统时,NameNode(也就是后续的master服务器)必须要与DataNode(后续的data1、data2、data2三个节点)进行连接,会要求很多次输入密码,为方便后续程序自动进行,最好设置master到data1、data2、data3的SSH无密码登录
SSH无密码登录大致设置思路如下:
前提:安装ssh:$ sudo yum install ssh与rsync:$ sudo yum install rsync

  • 产生SSH Key:$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 该命令将会在当前机器的~/.ssh目录下创建出id_dsa.pub文件,此文件是通过ssh连接到该机器的公钥
  • 在各个子节点如data1、data2、data3上重复上述操作,创建各个节点的公钥
  • 将各节点产生的id_dsa.pub文件加入到master的**~/.ssh/authorized_keys**文件中,如无该文件请自主创建
  • 设置完毕后 master可以无密码通过ssh连接到data1、data2、data3

下载安装Hadoop

去Hadoop的官网进行下载,在选择Hadoop的版本时需要配合后续的Spark版本,否则将会出错,具体版本的选择可以参考网上的资料。因为后续要安装Spark2.0 我们在此选用hadoop-2.6.4版本
从Apache官网上下载完hadoop-2.6.4.tar.gz后解压缩即可:$ sudo tar -zxvf hadoop-2.6.4.tar.gz
接着将解压出来的文件夹复制到 /usr/local/hadoop 中,/usr/local是软件的默认安装路径:sudo mv hadoop-2.6.4 /usr/local/hadoop

设置Hadoop环境变量

运行Hadoop必须设置很多环境变量,如果每次登录时必须重新设置就很麻烦,可以直接修改 ~/.bashrc 文件即可每次登录时会自动运行一次环境变量的设置:$ sudo vi ~/.bashrc
添加下列配置:

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64  
( 注: java 地址,该地址需要根据自己电脑的具体情况进行设置!!!)
(以下可复制)
export HADOOP_HOME=/usr/local/hadoop 
export PATH=$PATH:$HADOOP_HOME/bin 
export PATH=$PATH:$HADOOP_HOME/sbin 
export HADOOP_MAPRED_HOME=$HADOOP_HOME 
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME 
export YARN_HOME=$HADOOP_HOME 
export HADOOP_COMMON_HOME=$HADOOP_HOME 
export HADOOP_HDFS_HOME=$HADOOP_HOME 
export YARN_HOME=$HADOOP_HOME 
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native 
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib" 
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH

最后令该配置生效,执行:$ source ~/.bashrc 重启虚拟机亦可

修改Hadoop的配置设置文件

需要对Hadoop进行配置设置,需要修改的文件有 Hadoop-env.sh、core-site.xml、YARN-site.xml、mapred-site.xml、hdfs-site.xml

更新到 2019. 03.26 12:40 稍后更新

Hadoop Multi Node Cluster的安装

Spark的安装配置

猜你喜欢

转载自blog.csdn.net/weixin_41243045/article/details/88817277