pyspark使用指定python环境后的提交方法 - 代码天地

pyspark使用指定python环境后的提交方法

其他 2020-04-04 19:10:18 阅读次数: 0

一、扫盲

这篇文章很好的解释了如下几个问题：

spark on Yarn 是什么？
pyspark application 的运行原理是什么？
pyspark application 如何在 Yarn 运行？

二、实际

将python环境打包

cd path_to_python

*注意这里要进入python目录下打包，否则整个路径（就是python所在的路径）都会被打包，后面解压的时候，python前面会出现超长路径，不能正常解析报错

zip -r path_to_pythonzip/python_user.zip ./*

将python环境上传至hdfs

hadoop fs -put python_user.zip

修改spark配置文件

配置spark-defualts.config 文件，使得python上传后，在进行spark-submit时，会自动分发python环境的包到各个工作节点。
cp spark-defaults.conf  spark-user.conf

# 修改相关配置
spark.yarn.dist.archives path_to_hdfs/python_user.zip#python

* 注意最后面的 #python 不能删掉，他大概会在这个zip解压后的路径下找到python路径，然后命名为python。这涉及到配置文件中pyspark 的 python 能否找对

修改提交脚本

#！bin/bash
spark-submit --master yarn \
--driver-memory 4G --executor-memory 12G \
--properties-file conf/spark-user.conf \
--py-files other_dependence.py main.py

三、运行结果

简单运行一下，输出python环境中的gensim版本

发布了120 篇原创文章 · 获赞 35 · 访问量 17万+

私信关注

猜你喜欢

转载自blog.csdn.net/u012328476/article/details/78894669

pyspark使用指定python环境后的提交方法

0483-如何指定PySpark的Python运行环境

在交互环境下使用 Pyspark 提交任务给 Spark 解决 : java.sql.SQLException: No suitable driver

【pyspark】pyspark提交python代码至yarn运行

0485-如何在代码中指定PySpark的Python运行环境

python调用pyspark的环境配置

pyspark 使用时环境设置

pyspark shell指定相应python版本

使用Anaconda安装指定版本的Python环境

【Python】PySpark 数据处理 ② ( 安装 PySpark | PySpark 数据处理步骤 | 构建 PySpark 执行环境入口对象 )

spark2.3在Windows10当中来搭建python3的使用环境pyspark

DedeCMS实现自定义表单提交后发送指定QQ邮箱的方法

DedeCMS实现自定义表单提交后发送指定邮箱的方法

python虚拟环境启动后依然使用全局pip的解决方法

linux 环境下 python的安装及pyspark 的环境变量配置

pyspark指定schema

pyspark默认使用python2-----更改

python使用virtualenv创建指定版本的python虚拟环境

使用Anconda创建环境后，Pycharm运行代码中出现ImportError:DLL load failed:找不到指定模块的解决方法

Pycharm指定python环境

Git 提交指定Commit Id的方法

Pyspark spark-submit 集群提交任务以及引入虚拟环境依赖包攻略

CMD中使用Anaconda Env环境中的指定的Python版本

Pyspark 提交任务遇到的问题

pyspark 提交文件到集群

jenkins 使用的python 不是指定的python 的解决方法

hanlp在Python环境中的安装失败后的解决方法

pycharm配置pyspark环境

pyspark：集群环境实战

ajax返回success后,location.href为get提交为了使参数安全使用本方法

今日推荐

周排行

django中south支持多数据库

2、实时同步项目

http协议状态码解析

codeup 又一版 A+B(C++)

js三座大山之外的其他知识点

正向代理VS反向代理总结

规范的测试流程（转自51testing）

3、python-连接sql server

转~Jenkins pipeline：pipeline 使用之语法详解

cookie与sessio系列（一）：基本知识入门

每日归档

更多

2024-06-11(0)

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)