1.首先准备软件包
下载地址:https://www.apache.org/dyn/closer.lua/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz
2.解压到对应目录后,修改配置文件(前提Java已经安装过了)
解压的Linux命令:tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz
3.配置spark home环境变量
vi /etc/profile
export SPARK_HOME=/piflow/soft/spark/spark-2.4.3-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin
4.配置环境变量
进入Spark安装目录的conf目录,配置以下文件。
a.spark-env.sh
conf目录下没有此文件,需要复制模版文件spark-env.sh.template更名,命令如下:
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
直接在文件末尾添加,内容示例如下:
export JAVA_HOME=/home/software/soft/jdk1.8.0_11
#export SCALA_HOME=/usr/local/scala/scala-2.11.8
export HADOOP_HOME=/home/software/soft/hadoop-2.7.0
export HADOOP_CONF_DIR=/home/software/soft/hadoop-2.7.0/etc/hadoop
export YARN_CONF_DIR=/home/software/soft/hadoop-2.7.0/etc/hadoop
export SPARK_MASTER_IP=hadoop1
export SPARK_LOCAL_IP=192.168.183.161
export SPARK_WORKER_MEMORY=4g
export SPARK_HOME=/home/software/soft/spark-2.4.3-bin-hadoop2.7
export SPARK_LOCAL_DIRS=/home/software/soft/data/spark
export HADOOP_CONF_DIR=/home/software/soft/hadoop-2.7.0/etc/hadoop 这句比较关键,on yarn 的核心
b.spark-defaults.conf
此文件在目录下也没有,也需要复制模版文件,更名然后编辑,命令如下:
cp spark-defaults.conf.template spark-defaults.conf
vi spark-defaults.conf
直接在文件末尾添加内容,配置示例如下:
spark.yarn.jars=hdfs://spark01:9000/spark_jars/*
这个jar包需要自己手动传上去
c.slaves
此文件在conf目录下也没有,同样需要赋值模版文件,更名然后编辑,命令如下:
cp slaves.template slaves
vi slaves
同样在文件末尾直接添加配置内容即可,配置示例如下:(主机名或ip)
spark1
spark2
上传jar包
在HDFS上,创建一个目录,用来存放spark的依赖jar包。此目录是spark-defaults.conf目录中配置的目录名称,命令如下:
hadoop fs -mkdir /spark_jars
进入spark安装目录的jars目录,执行:
hadoop fs -put ./* /spark_jars
5.主节点上面该配的已经配完,下面是copy子节点的了
主节点上执行:
scp -r /piflow/soft/spark/spark-2.4.3-bin-hadoop2.7 spark@Spark02:/piflow/soft/spark
scp -r /piflow/soft/spark/spark-2.4.3-bin-hadoop2.7 spark@Spark03:/piflow/soft/spark
至此,完成Spark-Yarn的配置。
记得加上这个配置,可避免集群环境停不下来的问题:
https://blog.csdn.net/Alex_81D/article/details/105092935
6.安装完成启动
启动命令:
sbin/start-all.sh