Pycharm基于Anaconda配置PySpark

一、开发PySpark 所需准备环境

安装python环境：下载安装Anaconda。参考：https://lixinkuan.blog.csdn.net/article/details/104636483
安装PyCharm：下载安装PyCharm。
官网下载Spark安装包：由于PyCharm开发spark 需要本地Spark环境，所以要在官网中下载Spark安装包到本地（这里我们下载Spark1.6版本）。
进入Spark官网，找到对应的Spark版本下载。

将下载好的安装包解压到本地某个路径（路径中不要有空格和中文）
将解压的路径中的…spark….\python\lib下的以下两个压缩包解压

注意：

py4j是一个用 Python和Java编写的库。通过Py4J，Python程序能够动态访问Java虚拟机中的Java对象，Java程序也能够回调Python对象。
pyspark 是 Spark 为 Python 开发者提供的 API。

二、PyCharm开发Spark应用程序

使用PyCharm开发Spark应用环境需要配置Python环境，我们使用的Spark1.6版本，Spark2.1以下版本不支持python3.6版本，所以我们使用兼容性比较好的Python3.5版本，需要在PyCharm中配置。具体如下：

2.1、打开PyCharm创建新的项目

点击Create创建。

2.2、配置项目的结构

选中项目,点击File->Settings…->点击 Project:xxx:->Project Structure

配置完成后，项目根目录下多了一个lib目录：

2.3、创建一个Spark应用程序脚本（WordCount为例）

创建一个package：

右键创建一个目录,目录中创建一个文件，内容如下：

创建python脚本，内容如下:


from pyspark import SparkConf
from pyspark import SparkContext

if __name__ == '__main__':
    conf = SparkConf().setMaster("local").setAppName("wordcount")
    sc = SparkContext(conf=conf)
    lines = sc.textFile("../data/words")
    words = lines.flatMap(lambda line:line.split(","))
    pair_words = words.map(lambda word:(word,1))
    result = pair_words.reduceByKey(lambda a,b:a+b)
    print(result.collect())

运行，报错如下，需要配置SPAKR_HOME：