Spark: Mac上配置pySpark的IDE开发环境

其他 2018-10-10 08:59:48 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/chao2016/article/details/82914754

文章目录

1. 开发工具
2. Spark配置
3. PyCharm配置

3.1 设置启动参数
3.2 引入spark包

4. 测试
5. 集群运行

1. 开发工具

Java
spark-2.3.0-bin-2.6.0-cdh5.7.0
PyCharm

2. Spark配置

spark-env.sh

JAVA_HOME=/Users/chao/.jenv/candidates/java/current/

slaves

localhost

3. PyCharm配置

3.1 设置启动参数

新建一个python工程，创建一个.py文件
Run -> Edit Configurations -> Configuration -> Environment Variables -> 添加参数：

PYTHONPATH=/Users/chao/Documents/app/spark-2.3.0-bin-2.6.0-cdh5.7.0/bin
SPARK_HOME=/Users/chao/Documents/app/spark-2.3.0-bin-2.6.0-cdh5.7.0

如下图所示：
在这里插入图片描述

3.2 引入spark包

PyCharm -> Preferences -> Project -> Project Structure -> Add Current Root
添加同一个目录下的两个包：

/Users/chao/Documents/app/spark-2.3.0-bin-2.6.0-cdh5.7.0/python/lib/py4j-0.10.6-src.zip
/Users/chao/Documents/app/spark-2.3.0-bin-2.6.0-cdh5.7.0/python/lib/pyspark.zip

4. 测试

spark1001.py：

from pyspark import SparkConf, SparkContext

# 创建SparkConf：设置的是Spark相关的参数信息
conf = SparkConf().setMaster("local[2]").setAppName("spark0301")

# 创建SparkContext
sc = SparkContext(conf=conf)

# 业务逻辑
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)
print(distData.collect())

sc.stop()

点击运行，结果显示：

[1, 2, 3, 4, 5]

5. 集群运行

spark-submit 参数中添加py文件（代替jar包）即可。

spark-submit --master local[2] --name spark0301 /root/script/spark0301.py

猜你喜欢

转载自blog.csdn.net/chao2016/article/details/82914754

Spark: Mac上配置pySpark的IDE开发环境

Anaconda中配置Pyspark的Spark开发环境--window

Mac下安装spark及pyspark

window7下在pycharm上配置pyspark 搭建spark测试环境

Mac搭建spark开发环境

IDE Maven配置Spark环境（Scala版本）

Mac上配置IntelliJ IDEA的Spark源码阅读环境

机器学习 - 开发环境安装pycharm + pyspark + spark集成篇

Jupyter配置Spark开发环境

Windows上配置Python+Spark开发环境

mac配置单机spark

mac spark 配置

spark环境

Spark官方文档: Spark Configuration（Spark配置）

spark 配置

pyspark：连接spark集群Windows环境搭建

[spark]在集群上运行spark

在eclipse上搭建spark的java开发环境

Spark开发环境搭建

Spark集成开发环境

Spark 开发环境搭建

搭建Spark开发环境

spark环境配置

python spark环境配置

spark安装与环境配置

spark笔记环境配置

Spark 单机环境配置

Spark编程基础 --pyspark

[Spark] Spark 安装配置

Spark源码(1) Spark配置

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)