大数据系列 : Spark集群环境搭建

前言

本文环境基于Hadoop - Yarn平台搭建

Yarn的平台环境默认已经搭建完毕

前置环境

Linux集群 , Java , Zookeeper , Hadoop , Scala , python-pip(pssh)

下载Spark安装包

官网地址 https://spark.apache.org/downloads.html

如果外网下载速度较慢 , 可以找到对应版本号后 , 下载国内源的镜像

镜像地址 

清华大学镜像 - https://mirrors.tuna.tsinghua.edu.cn/apache/spark

上海大学镜像 - http://mirrors.shuosc.org/apache/spark/

Spark安装

下载成功

解压缩

修改配置文件

复制并修改spark-env.sh.template

export JAVA_HOME=/root/apps/jdk1.8.0_191
export SCALA_HOME=/root/apps/scala-2.12.8
export HADOOP_HOME=/root/apps/hadoop-2.8.5
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
#export SPARK_MASTER_HOST=hdp-01
#export SPARK_LOCAL_IP=0.0.0.0
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_MEMORY=1024m
export SPARK_WORKER_CORES=1
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hdp-01:2181,hdp-02:2181,hdp-03:2181,hdp-04:2181 -Dspark.deploy.zookeeper.dir=/root/apps/spark-2.2.2-bin-hadoop2.6"

#export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hdp-01,hdp-02,hdp-03"

######配置说明#####
#做了spark的HA配置 , 集群主从配置由Zookeeper接管
#Zookeeper会保存spark集群的所有状态信息 , 包括所有的workers、application、driver信息
#保存位置在/spark
 

复制并修改slaves.template

分发安装包到其它节点 , 视网络状态 , 需要几分钟时间

配置启动环境

分发环境配置

启动Spark

先启动zookeeper集群

再启动HDFS集群

最后启动Spark集群

查看hdp-01

其它节点

到此 , Spark集群的基本环境配置就完成了 , 可以通过浏览器查看集群状态

猜你喜欢

转载自blog.csdn.net/qq_40651717/article/details/85456337
今日推荐