07-Spark集群搭建 - 代码天地

07-Spark集群搭建

其他 2019-03-28 03:14:35 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_38038143/article/details/88313677

前言

确保已经搭建了集群，如果没有搭建的可以参考博主以前的文章。
这里博主拥有一台主节点、3台工作节点。
Spark版本：2.0.2

1 工作节点安装Spark

这里已经在主节点安装好了Spark（可以参考该专栏的第一篇博客），下面进行其他配置。

在主节点的Spark解压包下的 spark-2.0.2/conf/slaves 填上所有工作节点的主机名。
博主的主机名如下：
向工作节点传送Spark安装包

scp -r spark-2.0.2  slave1:/home/hadoop
scp -r spark-2.0.2  slave2:/home/hadoop
scp -r spark-2.0.2  slave3:/home/hadoop

在slave1、slave2、slave3分别设置环境变量

vim  /home/hadoop/.bashrc

在文件末尾加入：

# Spark
export SPARK_HOME=/home/hadoop/spark-2.0.2
export PATH=$PATH:$SPARK_HOME/bin/

并更新文件：

source .bashr

工作节点需要安装Python3.5（Spark2.0.2不支持Python3.6+）
如果，工作节点已经安装Python，并且可以在Spark中执行Python程序，即可跳过该步骤。
安装Python3.5.2 可参考：https://blog.csdn.net/qq_38038143/article/details/88319161 （博客安装的是Python3.6.2，3.5.2步骤相同）
Python-3.5.2下载：（注：同样需要下载zlib包）
链接：https://pan.baidu.com/s/1jn6G5SzVBDwuNQAqHiPV2A
提取码：c9ml
zlib 包：
链接：https://pan.baidu.com/s/1fCVA_m7zIUSq7O_BczyVBg
提取码：7cip
工作节点安装Python-3.5.2成功：
在主节点启动Spark集群

spark-2.0.2/sbin/start-all.sh

博主这里是先启动了Hadoop集群，然后启动Spark集群。

启动成功后各主机进程如下：
在这里插入图片描述
从上图中，可以看出，主节点启动的进程是：Master，工作节点启动：Worker进程。

在浏览器使用Web页面查看：master:8080
在这里插入图片描述

2 通过 pyspark 使用Spark自带的独立集群管理器连接集群

前面博文博主都是使用 pyspark 驱动器进行操作，下面列出如何在 pyspark 中使用集群资源：
启动命令：（spark://master:7077即代表独立集群管理器）
除了独立集群管理器，还支持 Hadoop yarn、Apache Mesos、Amazon EC2等。

pyspark --master spark://master:7077

同时，在Web页面，也可以看到驱动器的使用情况：
在这里插入图片描述
注意：如果要在pyspark中执行RDD计算，工作节点需要安装python3（博主的工作节点是RedHat，预先并没有安装Python3，所以博主是先安装了Python3，如果工作节点已安装可略过。）

如果能够顺利启动 pyspark，并且Web中能够看到应用运行，还不能最终确定集群是否搭建成功，还需要在集群中测试应用：
先将README.md文件上传至HDFS：

hdfs dfs -put README.md  ./

如果没有上传，可能出现如下报错：
在这里插入图片描述

如上图，能够在 pysark 中执行RDD的行为操作并且能够计算出结果，即Spark集群安装成功。

完！

猜你喜欢

转载自blog.csdn.net/qq_38038143/article/details/88313677

07-Spark集群搭建

大数据-07-Spark之流数据

07-Spark高级排序与TopK问题揭秘

07、Spark集群的进程管理

spark集群搭建

spark集群HA搭建

Spark 集群搭建

搭建spark on yarn 集群

spark集群搭建，standalone

Spark集群环境搭建

Spark集群安装搭建

Docker搭建Spark集群

spark的HA集群搭建

Spark 集群环境搭建

Spark入门&&集群搭建

Spark集群的搭建

spark on yarn 集群搭建

搭建Spark集群

Spark On Yarn集群环境搭建

Spark 集群的搭建学习(1.6.3)

搭建Spark集群（独立模式）

Hadoop、Spark 集群环境搭建

hadoop-spark集群搭建

联网设置-spark集群搭建

Spark高可用集群搭建

Spark系列(一)集群搭建

hadoop&spark集群搭建

spark1.0-集群搭建

搭建Spark高可用集群

hadoop及spark集群搭建后续

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)