Spark系列 —— pyspark中遇到的坑 (持续更新)

其他 2020-03-17 11:25:18 阅读次数: 0

1. 模块依赖问题

因为平时写Spark应用程序基本都用Scala，之前有写过一段pyspark，但是都是在一个类或模块中实现所有的功能，也就自然没有遇到过要在一个模块中导入(import)自己写的另一个模块。这次遇到了，也发现了关于import模块时要注意的问题。

本地 PyCharm

要注意的是，当在一个模块(假如是module1)中导入相同目录(假设是demo)下的另一个模块(module2)中的变量list时，想当然的以为应该是这样导入 ——> from module2 import list，但其实是这样 ——> from demo.module2 import list，就是你要加上要导入模块的上级目录才行，如果想要实现这样导入 —— from module2 import list，需要进行一些设置，如下：
设置步骤还有另外一种可以不进行设置的方式 ——> from .module2 import list，就是在要导入的模块的前面加一个.点表示导入的是同级目录下的模块。

远程集群提交spark-submit

先看提交命令：

spark-submit \
--master yarn \
--deploy-mode cluster \
--driver-memory 4G \
--executor-memory 10G \
--executor-cores 5 \
--num-executors 6 \
--conf "spark.yarn.maxAppAttempts=1" \
--py-files /home/module2.py \
/home/module1.py

因为spark任务在运行的时候一般都是分布式的，会先把程序代码module1.py发送到各个executor，而 module1.py 依赖模块 module2.py，那么也就需要把 module2.py 分发到各个executor节点，这就需要用到参数选项–py-files。

在提交到远程集群执行的时候，并不需要像在本地那样还需要注意被导入模块的路径问题，只需要from module2 import list即可。

A&F

发布了14 篇原创文章 · 获赞 3 · 访问量 4944

私信关注

猜你喜欢

转载自blog.csdn.net/lovetechlovelife/article/details/96452155

Spark系列 —— pyspark中遇到的坑 (持续更新)

SWIFT遇到的坑--------持续更新中

RxJava中遇到的坑持续更新...

设计模式系列 - 目录（持续更新中。。。）

Android JetPack系列文章持续更新中

flutter 遇到的坑（持续更新）

大数据高级开发面试题总结及答案汇总之[Spark系列]（持续更新中）

Spark几种运行模式及搭建（持续更新中。。。。。。。。。。。。）

spark 参数调优详解（持续更新中）

小程序系列（三）——踩坑（持续更新）

【填坑排错系列_npm篇】持续更新

JUC系列（持续更新）

学习Hyperledger Fabric遇到的那些坑（持续更新中）

在平时学习中遇到的各种Python的坑总结（持续更新）

NXP LPC系列学习笔记汇总（持续更新中）

JavaScript设计模式系列目录（持续更新中）

IT技术应读博文系列[持续更新中]

UICC 之 USIM 详解全系列（持续更新中......）

小程序开发遇到的坑——持续更新。。。

机器学习遇到的坑（持续更新）

unity发布WebGL遇到的坑（持续更新）

Spark 异常汇总（持续更新）

Oppo 持续更新中

持续更新中。。。

Layui(持续更新中)

HTML方面（持续更新系列）

SQL用法,持续更新系列

hive中的坑(持续更新中)

Python中的遇到的错误（持续更新）

scrapy 框架中遇到的bug~~~~~~持续更新

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)