【机器学习之一】python开发spark环境搭建 - 代码天地

【机器学习之一】python开发spark环境搭建

其他 2019-05-13 14:25:32 阅读次数: 0

环境
　　spark-1.6
　　python3.5

1、python开发spark原理
使用python api编写pyspark代码提交运行时，为了不破坏spark原有的运行架构，会将写好的代码首先在python解析器中运行(cpython)，Spark代码归根结底是运行在JVM中的，这里python借助Py4j实现Python和Java的交互,即通过Py4j将pyspark代码“解析”到JVM中去运行。例如，在pyspark代码中实例化一个SparkContext对象，那么通过py4j最终在JVM中会创建scala的SparkContext对象及后期对象的调用、在JVM中数据处理消息的日志会返回到python进程中、如果在代码中会回收大量结果数据到Driver端中，也会通过socket通信返回到python进程中。这样在python进程和JVM进程之间就有大量通信。

python开发spark，需要进行大量的进程间的通信，如果通信量过大，会出现“socket write error”错误，应尽量少使用回收数据类算子，也可以调节回收日志的级别，降低进程之间的通信。

2、版本选择
这里使用Spark1.6版本，由于Spark2.1以下版本不支持python3.6版本，所以我们使用兼容性比较好的Python3.5版本。

3、搭建
步骤一：搭建python3.5环境

(1)conda info --env可以看到所有python环境，前面有个‘*’的代表当前环境

(2)创建Python3.5环境

conda create --name python35 python=3.5

扫描二维码关注公众号，回复： 6221800 查看本文章

创建成功之后：

(3)激活python35:

猜你喜欢

转载自www.cnblogs.com/cac2020/p/10856284.html

【机器学习之一】python开发spark环境搭建

Python 机器学习开发环境搭建

Spark机器学习（一）Idea的sbt环境搭建

myBatis系列之一：搭建开发环境

【AR应用开发之一】环境搭建

搭建机器学习的Python环境

在Windows系统下搭建Python语言集成开发环境之一安装python

机器学习自学笔记（一）：Python 环境搭建

机器学习入坑指南（一）：Python 环境搭建

汇智学堂-深度学习（基于Keras的Python实践之一---深度学习环境搭建）

Spark开发环境搭建

Spark 开发环境搭建

搭建Spark开发环境

Spark的这些事<一>——Windows下spark开发环境搭建

机器学习入门（开发环境搭建）

TensorFlow机器学习开发环境搭建

【Python从入门到精通】Python 环境快速搭建之一

【爬虫系列之一】爬虫开发环境的搭建

Cordova系列之一开发环境搭建（windows）

Weex开发体验之一：环境搭建及调测

Atlassian JIRA 插件开发之一环境搭建

scrcpy 开发环境搭建与源码走读之一

Spark学习记录（一）Spark 环境搭建以及worldCount示例

Spark学习笔记之一

Spark学习整理之一

Linux环境搭建python机器学习数据分析开发环境

Windows下搭建 python机器学习环境

Mybatis学习笔记之二（动态mapper开发和spring-mybatis整合） Mybatis学习笔记之一（环境搭建和入门案例介绍） Mybatis学习笔记之一（环境搭建和入门案例介绍） Mybatis学习笔记之一（环境搭建和入门案例介绍） Mybatis学习笔记之一（环境搭建和入门案例介绍） Mybatis学习笔记之一（环境搭建和入门案例介绍）

机器学习 - 开发环境安装pycharm + pyspark + spark集成篇

Liferay 之一环境搭建

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)