Spark分布式集群的搭建和运行 - 代码天地

Spark分布式集群的搭建和运行

服务端 2018-07-09 22:46:44 阅读次数: 0

1. 在master上下载Scala-2.11.0.tgz，复制到/opt/下面，解压，在/etc/profile加上语句：

export SCALA_HOME=/opt/scala-2.11.0
export PATH=$PATH:$SCALA_HOME/bin

然后运行命令：

source /etc/profile

在slave03、slave04上也执行相同的操作。

2. 在master上下载spark-2.1.0-bin-hadoop2.6，复制到/opt/下面。解压，在/etc/profile加上语句：

export SPARK_HOME=/opt/spark-2.1.0-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

然后运行命令：

source /etc/profile

3. 编辑${SPARK_HOME}/conf/spark-env.sh文件，增加下面的语句：

# JAVA_HOME
export JAVA_HOME=/opt/jdk1.8.0_121
# SCALA_HOME
export SCALA_HOME=/opt/scala-2.11.0
# SPARK_HOME
export SPARK_HOME=/opt/spark-2.1.0-bin-hadoop2.6
# Master主机名
export SPARK_MASTER_HOST=master
# Worker的内存大小
export SPARK_WORKER_MEMORY=1g
# Worker的Cores数量
export SPARK_WORKER_CORES=1
# SPARK_PID路径
export SPARK_PID_DIR=$SPARK_HOME/tmp
# Hadoop配置文件路径
export HADOOP_CONF_DIR=/opt/hadoop-2.6.0-cdh5.9.0/etc/hadoop
# Spark的Recovery Mode、Zookeeper URL和路径
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=master:12181,slave03:12181,slave04:12181 -Dspark.deploy.zookeeper.dir=/spark"

在${SPARK_HOME}/conf/slaves中增加：

matser
slave03
slave04

这样就设置了三个Worker。

修改文件结束以后，将${SPARK_HOME}用scp复制到slave03和slave04。

4. 在master上进入${SPARK_HOME}/sbin路径，运行：

./start-master.sh

这是启动Master。

再运行：

./start-slaves.sh

这是启动Worker。

5. 在master上运行jps，如果有Master和Worker表明启动成功：

在slave03、slave04上运行jps，有Worker表明启动成功：

6. 访问http://master:8081，出现下面的页面表明启动成功：

更多Spark相关教程见以下内容：

Spark 的详细介绍：请点这里
Spark 的下载地址：请点这里

猜你喜欢

转载自www.linuxidc.com/Linux/2017-04/142695.htm

Spark分布式集群的搭建和运行

spark集群搭建（完全分布式）

Spark分布式集群环境搭建

Spark完全分布式集群搭建

Kubernetes和Docker，分布式集群搭建和安装

Hadoop及Spark 单机及分布式集群环境搭建、运行示例。

在local模式下的spark程序打包到集群上运行 Hadoop2.0伪分布式平台环境搭建 Spark2.4.0伪分布式环境搭建 Spark学习之在集群上运行Spark

Spark 1.6.1分布式集群环境搭建

docker内搭建spark分布式集群（python）

Hadoop+Spark分布式集群环境搭建

Spark分布式集群搭建及注意事项

Spark+Scala完全分布式集群搭建过程

使用docker搭建虚拟分布式spark集群__笔记

使用docker搭建spark分布式集群

Spark的介绍及伪分布式集群的搭建

干货分享：Python搭建Spark分布式集群环境

搭建Spark真实分布式运行环境

安装Spark+hadoop，spark、hadoop分布式集群搭建...(亲自搭建过！！)

3.Spark环境搭建-Spark完全分布式集群搭建

Spark编程指南之四：Spark分布式集群模式的运行时系统架构

Hadoop2.7.3完全分布式集群搭建和测试

大数据技术之Apache Hadoop 分布式集群搭建和部署

基于CentOS的分布式文件系统GlusterFS安装、集群搭建和运维

spark分布式集群安装

spark分布式集群部署

大数据集群环境搭建：Hadoop、Spark、Flink分布式集群环境

在spark上运行分布式xgboost

构建Spark分布式集群第一步：搭建Hadoop伪分布式环境

以yarn client和分布式集群方式运行spark-2.3.2-bin-hadoop2.6

spark分布式集群部署的配置文件记录和代码运行

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)