大数据环境部署第五章——Spark 伪分布式搭建

前言：本文为系列教程，至此默认读者已经安装好了Hadoop，jdk；
如还未配置好上述服务，可以查看笔者前面的博文进行参考配置

一、准备阶段

scala文件下载及配置
（1）进入scala官网复制下载链接
下载官网：https://www.scala-lang.org/download/

进入官网后下拉到底部选择此格式文件复制下载链接
（2）下载并解压文件
命令：wget https://downloads.lightbend.com/scala/2.13.1/scala-2.13.1.tgz

将下载好的文件解压到~/opt/目录下
命令：tar -zxvf scala-2.13.1.tgz -C ~/opt/

创建软连接便于后面的维护

命令：ln -s ~/opt/scala-2.13.1/ ~/opt/scala

在这里插入图片描述
修改.bashrc 文件配置scala的环境

命令:vim .bashrc

在文件的末尾插入scala的位置信息

export SCALA_HOME=/home/zh123/opt/scala
export PATH=$PATH:$SCALA_HOME/bin

在这里插入图片描述
修改完毕后使用命令：

source .bashrc 使得刚才的配置生效

然后使用命令

scala -version 测试查看scala版本是否能够查看成功

在这里插入图片描述

spark文件下载
（1）进入官网
官网地址：http://spark.apache.org/downloads.html
选择需要的版本进行下载

复制清华源镜像下载链接

（2）下载并解压文件

命令 wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz

在这里插入图片描述
将下载好文件解压到~/opt/目录下

命令：tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C ~/opt/

在这里插入图片描述
为解压后的文件创建软连接

命令：ln -s ~/opt/spark-2.4.5-bing-hadoop2.7/ ~/opt/spark

在这里插入图片描述
编辑.bashrc文件添加路径信息

命令：vim .bashrc
添加内容:
export SPARK_HOME=/home/zh123/opt/spark
export PATH=$PATH:$SPARK_HOME/bin

在这里插入图片描述
二、spark环境配置

1、拷贝spark配置示例

命令：cp spark-env.sh.template spark-env.sh

在这里插入图片描述

2、修改配置文件spark-env.sh

命令：vim spark-env.sh

添加内容：

export JAVA_HOME=/home/zh123/opt/java export
HADOOP_HOME=/home/zh123/hadoop export
HADOOP_CONF_DIR=/home/zh123/hadoop/etc/hadoop export
SCALA_HOME=/home/zh123/scala export SPARK_HOME=/home/zh123/spark
export SPARK_MASTER_IP=192.168.96.185 export SPARK_MASTER_PORT=7077
export SPARK_MASTER_WEBUI_PORT=8099 export SPARK_WORKER_CORES=2 export
SPARK_WORKER_INSTANCES=1 export SPARK_WORKER_MEMORY=2G export
SPARK_WORKER_WEBUI_PORT=8081 export SPARK_EXECUTOR_CORES=1 export
SPARK_EXECUTOR_MEMORY=1G export
LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$HADOOP_HOME/lib/native

内容解释：

变量名	解释
JAVA_HOME	jdk的安装目录
HADOOP_HOME	hadoop的安装目录
HADOOP_CONF_DIR	hadoop的配置文件存放目录
SCALA_HOME	scala的安装目录
SPARK_HOME	spark的安装目录
SPARK_MASTER_IP	spark主节点绑定的地址
SPARK_MASTER_PORT	spark主节点绑定的端口号
SPARK_MASTER_WEBUI_PORT	spark master节点的网页端口
SPARK_WORKER_CORES	worker使用的cpu核心数
SPARK_WORKER_INSTANCES	最多能够同时启动的EXECUTOR的实例个数
SPARK_WORKER_MEMORY	worker分配的内存数量
SPARK_WORKER_WEBUI_PORT	worker的网页查看绑定的端口号
SPARK_EXECUTOR_CORES	每个executor分配的cpu核心数
SPARK_EXECUTOR_MEMORY	每个executor分配的内存数
LD_LIBRARY_PATH	指定查找共享库

在这里插入图片描述

3、配置salve节点
拷贝原来的示例配置文件一份

命令：cp slaves.template slaves

在这里插入图片描述
编辑slaves文件
修改slave节点地址
！！！注意笔者这里写的是master 它隐射的IP地址是本机的IP地址（192.168.96.185）
大家如果没有进行配置映射这里是会地址解析错误的
读者在配置这里的时候需要查看/etc/hosts 文件的映射表进行查看配置
在这里插入图片描述

三、启动测试spark

首先需要先启动hadoop

命令: start-all.sh

在这里插入图片描述

启动spark
因为这里没有配置spark/sbin目录的环境变量所以需要cd到spark的sbin目录下再进行启动（没配置此目录的环境变量是因为spark的启动文件 start-all.sh与hadoop的启动文件名重名，配了会发生冲突，解决办法可以将两个文件中的其中一个重命名即可，这里读者就没有进行相关的操作了，是直接全路径指定执行启动的）

至此spark的伪分布式安装配置就结束了

尼克不可

发布了27 篇原创文章 · 获赞 62 · 访问量 1万+

私信关注

大数据环境部署 第五章——Spark 伪分布式搭建

大数据环境部署 第五章——Spark 伪分布式搭建

猜你喜欢

大数据环境部署第五章——Spark 伪分布式搭建

大数据环境部署第五章——Spark 伪分布式搭建