pyspark安装教程

一、Windows下配置pyspark环境

在python中使用pyspark并不是单纯的导入pyspark包就可以实现的,而是需要由不同的环境共同搭建spark环境,才可以在python中使用pyspark。
搭建pyspark所需环境:python3,jdk,spark,Scala,Hadoop(可选)

1.1 JDK下载安装

下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
打开Windows中的环境变量:

  • 创建JAVA_HOME:C:\Program Files\Java\jdk1.8.0_181
  • 创建CLASSPATH:.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar

在Path添加:%JAVA_HOME%\bin;
测试是否安装成功:打开cmd命令行,输入java -version
在这里插入图片描述

1.2 Scala下载安装

下载地址:https://downloads.lightbend.com/scala/2.12.8/scala-2.12.8.msi
下载后进行安装

  • 创建SCALA_HOME: C:\Program Files (x86)\scala
  • Path添加:%SCALA_HOME%\bin

测试是否安装成功:打开cmd命令行,输入scala -version
在这里插入图片描述

1.3 spark下载安装

下载地址:http://mirror.bit.edu.cn/apache/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz
也可以选择下载指定版本:http://spark.apache.org/downloads.html
下载好之后解压放在随便一个目录下即可,但是目录名不可以有空格。
环境变量:

  • 创建SPARK_HOME:D:\spark-2.2.0-bin-hadoop2.7
  • Path添加:%SPARK_HOME%\bin
    测试是否安装成功:打开cmd命令行,输入spark-shell
    在这里插入图片描述

1.4 Hadoop下载安装

如果你需要去hdfs取数据的话,就应该先装hadoop。
下载地址:
http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz
解压到指定目录即可。
环境变量:

  • 创建HADOOP_HOME:D:\hadoop-2.7.7
  • Path添加:%HADOOP_HOME%\bin
    测试是否安装成功:打开cmd命令行,输入hadoop

hadoop测试时报错:Error: JAVA_HOME is incorrectly set。参考:https://blog.csdn.net/qq_24125575/article/details/76186309

1.5 pyspark下载安装

pycharm中安装pyspark
在这里插入图片描述

二、pyspark原理简介

pyspark的实现机制可以用下面这张图来表示
在这里插入图片描述

在python driver端,SparkContext利用Py4J启动一个JVM并产生一个JavaSparkContext。Py4J只使用在driver端,用于本地python与java SparkContext objects的通信。大量数据的传输使用的是另一个机制。
RDD在python下的转换会被映射成java环境下PythonRDD。在远端worker机器上,PythonRDD对象启动一些子进程并通过pipes与这些子进程通信,以此send用户代码和数据。

猜你喜欢

转载自blog.csdn.net/qq_51808107/article/details/131180756
今日推荐