spark安装简要指南

这里记录一下spark安装的步骤。

首先安装好hadoop,然后下载spark on hadoop,解压缩到namenode上。将spark-2.1.1-bin-hadoop2.7/conf/spark-env.sh.template改为spark-env.sh,然后添加:

export JAVA_HOME =/usr/java/jdk1.8.0_66
export HADOOP_HOME =/root/hadoop-2.8.0
export HADOOP_CONF_DIR =$HADOOP_HOME/etc/hadoop
export SPARK_HOME = /root/spark-2.3.1-bin-hadoop2.7
export SPARK_MASTER_IP =namenode
export SPARK_EXECUTOR_MEMORY =4G

然后将spark拷贝到各个节点,真的是简单到不行。
在namenode的sbin目录下使用如下命令来启动python环境的spark,参数根据自己集群的情况进行修改。

pyspark --master yarn --deploy-mode client --num-executors 10 --driver-memory 8g --executor-memory 16g --executor-cores 4 --conf “spark.driver.host=namenode”

可以使用8080查看spark集群情况,用4040查看spark任务。
为了方便使用,可以修改/etc/profile:

export HADOOP_HOME=/root/hadoop-2.8.0
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export SPARK_HOME=/root/spark-2.3.1-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH

猜你喜欢

转载自blog.csdn.net/kittyzc/article/details/82807404