大数据——spark安装部署和python环境配置 - 代码天地

大数据——spark安装部署和python环境配置

其他 2021-03-29 15:25:51 阅读次数: 0

需要配置多台服务器，实验环境：master和data两台服务器，已安装好hadoop，可参考前文！！！

1.spark安装

master安装

（1）下载scala和spark

（2）解压并配置环境变量

export SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin


export SPARK_HOME=/home/spark-2.4.5-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin

（3）配置spark-env.sh文件

export SPARK_MASTER_IP=IP
export SPARK_MASTER_HOST=IP
export SPARK_WORKER_MEMORY=512m
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=4
export SPARK_MASTER_PORT=7077

（4）配置slaves文件

data

data安装

（1）下载scala和spark

（2）解压并配置环境变量

export SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin


export SPARK_HOME=/home/spark-2.4.5-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin

（3）配置spark-env.sh文件

export SPARK_MASTER_IP=IP
export SPARK_MASTER_HOST=IP
export SPARK_WORKER_MEMORY=512m
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=4
export SPARK_MASTER_PORT=7077

启动和测试：

进入到sbin目录启动：start-all.sh或者start-master.sh、start-slaves.sh，输入jps：

扫描二维码关注公众号，回复： 13000192 查看本文章

master显示： data显示：

然后启动pyspark：

pyspark

可以访问成功,然后更换模式：

pyspark --master spark://master_ip:7077

2. 配置Anaconda和远程访问Jupyter

（1）安装Anaconda

安装：

配置环境变量：

（2）远程配置Jupyter

参考：https://blog.csdn.net/MuziZZ/article/details/101703604

（3）pyspark和python结合

export PATH=$PATH:/root/anaconda3/bin
export ANACONDA_PATH=/root/anaconda3
export PYSPARK_DRIVER_PYTHON=$ANACONDA_PATH/bin/jupyter-notebook
#PARK_DRIVER_PYTHON="jupyter" PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark
export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python

访问界面：

猜你喜欢

转载自blog.csdn.net/qq_28409193/article/details/113346624

大数据——spark安装部署和python环境配置

centos部署单机spark大数据环境（二）--【安装spark】

云计算与大数据——Spark的安装和配置

Spark环境配置和安装

【大数据实战项目二】Spark环境和Mongo、ES数据库安装，以及数据库与Spark，Python联动

大数据高可用集群环境安装与配置（09）——安装Spark高可用集群

大数据环境搭建步骤详解（Hadoop，Hive，Zookeeper，Kafka，Flume，Hbase，Spark等安装与配置）

大数据环境部署——MySQL安装

大数据手册(Spark)--Spark安装配置

大数据：VMware | Ubuntu | Hadoop | Spark | VMwaretools | Python 安装配置总结

大数据环境部署

Python与Spark大数据

Python与Spark大数据！

spark安装与环境配置

CentOS6安装各种大数据软件第十章：Spark集群安装和部署

Python学习笔记——大数据之Spark简介与环境搭建

大数据之linux的安装和部署

spark - 部署和安装

python spark环境配置

Linux下基于Hadoop的大数据环境搭建步骤详解（Hadoop，Hive，Zookeeper，Kafka，Flume，Hbase，Spark等安装与配置）

大数据之Spark集群安装配置

大数据时代--windows下spark的安装与配置教程

【Ubuntu-大数据】spark安装配置

【spark实战】大数据部署平台spark扩展新增节点安装文档

Python安装和环境配置

Python的安装和环境配置

Python环境的安装和配置

大数据集群安装（三）Hadoop Apache集群安装部署详细（包括环境准备和Zookeeper安装）

8.Spark大型电商项目-大数据环境搭建之Spark集群安装

【大数据计算】(四) Spark的安装和基础编程

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)