spark2.4.5搭建过程

spark2.4.5搭建过程

1、上传解压,配置环境变量 配置bin目录

#环境变量配置
vim /etc/profile

#Spark
export SPARK_HOME=/usr/local/soft/spark-2.4.5
export PATH=$PATH:$SPARK_HOME/bin

#生效环境变量
source /etc/profile

2、修改配置文件 conf

#进入conf目录
cp spark-env.sh.template spark-env.sh
增加配置
export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077

export SPARK_WORKER_CORES=2
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=2g
export JAVA_HOME=/usr/local/soft/jdk1.8.0_171

master相当于RM worker相当于NM

增加从节点配置

cp slaves.template slaves
    
slave1
slave2

增加从节点

3、复制到其它节点

scp -r spark-2.4.5 slave1:`pwd`
scp -r spark-2.4.5 slave2:`pwd`

4、在主节点执行启动命令

启动集群,在master中执行
./sbin/start-all.sh	

http://master:8080/  访问spark ui
  1. standalone client模式 日志在本地输出,一班用于上线前测试(bin/下执行)

需要进入到spark-examples_2.11-2.4.5.jar 包所在的目录下执行

cd /usr/local/soft/spark-2.4.5/examples/jars

spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512m --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100
  1. standalone cluster模式 上线使用,不会再本地打印日志
spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --driver-memory 512m --deploy-mode cluster --supervise --executor-memory 512M --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100

spark-shell spark 提供的一个交互式的命令行,可以直接写代码

spark-shell master spark://master:7077

整合yarn

在公司一般不适用standalone模式,因为公司一般已经有yarn 不需要搞两个资源管理框架

#停止spark集群
#在spark sbin目录下执行 
./stop-all.sh

spark整合yarn只需要在一个节点整合, 可以删除slave1 和slave2中所有的spark 文件

1、增加hadoop 配置文件地址

vim spark-env.sh
增加
export HADOOP_CONF_DIR=/usr/local/soft/hadoop-2.7.3/etc/hadoop

2、往yarn提交任务需要增加两个配置 yarn-site.xml(/usr/local/soft/hadoop-2.7.3/etc/hadoop/yarn-site.xml)

先关闭yarn

stop-yarn.sh
<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>

<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>

4、同步到其他节点,重启yarn

scp -r yarn-site.xml slave1:`pwd`
scp -r yarn-site.xml slave2:`pwd`

启动yarn

start-yarn.sh

cd /usr/local/soft/spark-2.4.5/examples/jars

3.spark on yarn client模式 日志在本地输出,一班用于上线前测试

spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client --executor-memory 512M --num-executors 2 spark-examples_2.11-2.4.5.jar 100

4.spark on yarn cluster模式 上线使用,不会再本地打印日志 减少io

spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster --executor-memory 512m --num-executors 2 --executor-cores 1 spark-examples_2.11-2.4.5.jar 100

获取yarn程序执行日志 执行成功之后才能获取到

yarn logs -applicationId application_1560967444524_0003

#hdfs webui
http://slave1:50070

#yarn ui
http://slave1:8088

猜你喜欢

转载自blog.csdn.net/qq_43278189/article/details/121214615