Spark1.6的部署配置与运行

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/bingzige/article/details/51347278

环境

spark1.6.1

scala-2.11.8

hadoop2.6.2

zookeeper3.4.6


 其他版本的hadoop,可以到这里下载对应版本的spark

http://spark.apache.org/downloads.html


下载Scala,Spark是Scala语言实现的,运行时会依赖Scala环境
http://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz

解压安装scala,配置环境变量
vi /etc/profile
export SCALA_HOME=$SCALA_HOME
PATH=$PATH:$SCALA_HOME/bin

保存
source /etc/profile

验证
scala -version
scala
scala > var str = "a is"+"a"

相同的scala安装目录全部复制到其它spark的slave节点,目录结构保持一致

在master主机配置spark


将spark解压,配置环境变量
vi /etc/profile
export SPARK_HOME=$SPARK_HOME
PATH=$PATH:$SPARK_HOME

使配置生效
source /etc/profile

进入spark conf目录
cd SPARK_HOME
ls
cd conf
ls

修改slaves文件
vi slaves
slave01
slave02
slave03

配置spark-env.sh
 cp spark-env.sh.template spark-env.sh
vi spark-env.sh
在最下面添加
export JAVA_HOME=
export SCALA_HOME=
export SPARK_MASTER_IP=主节点的IP地址
export SPARK_WORKER_MEMORY=1g(spark工作节点使用的最大内存)
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

将spark文件夹copy到其它机器
scp -r $SPARK_HOME slave01:~
scp -r $SPARK_HOME slave02:~
scp -r $SPARK_HOME slave03:~

在启动spark分布式集群前,首先启动slave01,slave02,slave03三个zookeeper,然后启动hbdfs

启动spark分布式集群并查看信息
cd $SPARK_HOME
cd sbin
./start-all.sh

查看
jps

页面查看集群状况
进spark集群的web管理页面,访问master:8080(要关闭防火墙,或者把端口打开)

进入spark的bin目录,启动spark-shell控制台
./spark-shell
访问http://master:4040
可以看到spark WEBUI界面,说明spark集群环境搭建成功!

猜你喜欢

转载自blog.csdn.net/bingzige/article/details/51347278
今日推荐