spark on yarn 集群搭建

1.首先准备软件包

下载地址：https://www.apache.org/dyn/closer.lua/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz

2.解压到对应目录后，修改配置文件（前提Java已经安装过了）

解压的Linux命令：tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz

3.配置spark home环境变量
vi /etc/profile
export SPARK_HOME=/piflow/soft/spark/spark-2.4.3-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin

4.配置环境变量

进入Spark安装目录的conf目录，配置以下文件。

a.spark-env.sh

conf目录下没有此文件，需要复制模版文件spark-env.sh.template更名，命令如下：

cp spark-env.sh.template spark-env.sh

vi spark-env.sh

直接在文件末尾添加，内容示例如下：

export JAVA_HOME=/home/software/soft/jdk1.8.0_11
#export SCALA_HOME=/usr/local/scala/scala-2.11.8
export HADOOP_HOME=/home/software/soft/hadoop-2.7.0
export HADOOP_CONF_DIR=/home/software/soft/hadoop-2.7.0/etc/hadoop
export YARN_CONF_DIR=/home/software/soft/hadoop-2.7.0/etc/hadoop
export SPARK_MASTER_IP=hadoop1
export SPARK_LOCAL_IP=192.168.183.161
export SPARK_WORKER_MEMORY=4g
export SPARK_HOME=/home/software/soft/spark-2.4.3-bin-hadoop2.7
export SPARK_LOCAL_DIRS=/home/software/soft/data/spark

export HADOOP_CONF_DIR=/home/software/soft/hadoop-2.7.0/etc/hadoop 这句比较关键，on yarn 的核心

b.spark-defaults.conf

此文件在目录下也没有，也需要复制模版文件，更名然后编辑，命令如下：

cp spark-defaults.conf.template spark-defaults.conf

vi spark-defaults.conf

直接在文件末尾添加内容，配置示例如下：

spark.yarn.jars=hdfs://spark01:9000/spark_jars/*

这个jar包需要自己手动传上去

c.slaves

此文件在conf目录下也没有，同样需要赋值模版文件，更名然后编辑，命令如下：

cp slaves.template slaves

vi slaves

同样在文件末尾直接添加配置内容即可，配置示例如下：(主机名或ip)

spark1

spark2

上传jar包

在HDFS上，创建一个目录，用来存放spark的依赖jar包。此目录是spark-defaults.conf目录中配置的目录名称，命令如下：

hadoop fs -mkdir /spark_jars

进入spark安装目录的jars目录，执行：

hadoop fs -put ./* /spark_jars

5.主节点上面该配的已经配完，下面是copy子节点的了

主节点上执行：
scp -r /piflow/soft/spark/spark-2.4.3-bin-hadoop2.7 spark@Spark02:/piflow/soft/spark
scp -r /piflow/soft/spark/spark-2.4.3-bin-hadoop2.7 spark@Spark03:/piflow/soft/spark

至此，完成Spark-Yarn的配置。

记得加上这个配置，可避免集群环境停不下来的问题：

https://blog.csdn.net/Alex_81D/article/details/105092935

6.安装完成启动
启动命令：
sbin/start-all.sh

spark on yarn 集群搭建

猜你喜欢