Spark+Scala完全分布式集群搭建过程

Scala2.11.8环境搭建

1、下载scala安装包scala-2.11.8.rpm安装

rpm -ivh scala-2.11.8.rpm

2、添加Scala环境变量，在/etc/profile中添加：

export SCALA_HOME=/usr/local/src/scala
export PATH=$PATH:$SCALA_HOME/bin

3、保存后刷新配置

source /etc/profile

Spark2.1.0完全分布式环境搭建

以下操作都在Master节点进行。

1、下载二进制包spark-2.1.0-bin-hadoop2.7.tgz
2、解压并移动到相应目录，命令如下：

tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz

mv hadoop-2.7.3 /usr/local/src/

3、修改相应的配置文件。

1) 修改/etc/profie，增加如下内容：

export SPARK_HOME=/usr/local/src/spark-2.1.0-bin-hadoop2.7/
export PATH=$PATH:$SPARK_HOME/bin

2) 复制spark-env.sh.template成spark-env.sh

cp spark-env.sh.template  spark-env.sh

3) 修改$SPARK_HOME/conf/spark-env.sh，添加如下内容：

export JAVA_HOME=/usr/local/src/jdk1.8.0_144
export SCALA_HOME=/usr/share/scala
export HADOOP_HOME=/usr/local/src/hadoop-2.7.3
export HADOOP_CONF_DIR=/usr/local/src/hadoop-2.7.3/etc/hadoop
export SPARK_MASTER_IP=172.16.1.2
export SPARK_MASTER_HOST=172.16.1.2
export SPARK_LOCAL_IP=172.16.1.2
export SPARK_WORKER_MEMORY=1g
export SPARK_WORKER_CORES=2
export SPARK_HOME=/usr/local/src/spark-2.1.0-bin-hadoop2.7
export SPARK_DIST_CLASSPATH=$(/usr/local/src/hadoop-2.7.3/bin/hadoop classpath)

4) 复制slaves.template成slaves

cp slaves.template slaves

5) 修改$SPARK_HOME/conf/slaves，添加如下内容：

master
slave1
slave2

4、将配置好的spark文件复制到Slave1节点。（复制到slave2已省略）

scp -r /usr/local/src/spark-2.1.0-bin-hadoop2.7 root@Slave1:/usr/local/src/

5、修改Slave1和Slave2配置。
在Slave1和Slave2上分别修改/etc/profile，增加Spark的配置，过程同Master一样。

在Slave1和Slave2修改$SPARK_HOME/conf/spark-env.sh，将export SPARK_LOCAL_IP=172.16.1.2改成Slave1和Slave2对应节点的IP。

6、在Master节点启动集群。

/usr/local/src/spark-2.1.0-bin-hadoop2.7/sbin/start-all.sh

7、查看集群是否启动成功：

jps

Master在Hadoop的基础上新增了：

Master

Slave在Hadoop的基础上新增了：

Worker

Serein_my

发布了38 篇原创文章 · 获赞 56 · 访问量 6576

私信关注