在win10上为pycharm配置spark

最近实验室给了我一个基于spark的大数据项目,光是在Linux系统上搭建起一个spark的local版本就有不少坑(版本、环境变量...)。另外,实验室之前的代码都是用python写的,所以我就上手了一下pyspark在python上的配置,emmm,我看网上的教程,大部分都没有解决我的问题,在经过不断的尝试后,终于配置起来了。下面我就来总结一下, 既是给我自己做一个备份,也是给大家填一下坑。

一、包的安装以及环境配置:

1.jdk:我的版本是:1.8.0_191 我的安装路径是:C:\Program Files\Java\jdk1.8.0_191

然后需要配置环境变量:

在“系统变量”中添加“JAVA_HOME",在”值“中输入jdk文件夹的路径:

在”系统变量“中的”path“中添加jdk以及jre的”bin“文件夹的路径:

安装成功的标志是:

2.scala:因为scala是基于java的,所以应该先配置java环境。我的scala版本是:2.11.12  我的安装路径是:E:\spark-idea\scala-2.11.12

然后需要配置环境变量:

在“系统变量”中添加“SCALA_HOME”,在“值”中输入scala安装的文件夹的目录:

在“系统变量”中的“path”中添加scala的安装文件夹下的bin文件夹目录:

配置成功的标志是:

3.spark:首先声明一下,因为我是在单机上开发spark,因此不涉及分布式的存储,因此就可以暂时不用hadoop,所以没有提到hadoop。我的spark版本是:spark-2.4.3-bin-hadoop2.7,安装位置是:E:\spark-idea\spark-2.4.3-bin-hadoop2.7

然后需要配置环境变量:

在“系统变量”中添加“SPARK_HOME”,在“值”中输入spark的安装路径:

在“系统变量”的“path”中添加spark的安装目录下的“bin”文件夹的路径:

配置成功的标志:(需要在控制台输入“spark-shell”)

二、在pycharm中创建项目,并配置:

1.新建一个project:

注意:python版本要选择3.4亲测可行

2.新建一个.py文件:

3.选择:run->Edit Configurations

可以在这里配置环境变量(Environment Variables中),也可以直接在代码中配置环境变量,这里直接给出在代码中配置的:

4.代码:

代码中的os.environ就是对环境变量的配置,这几个一定要加上,不然就会报错!

import os, sys

from pyspark import SparkContext, SparkConf

os.environ['SPARK_HOME'] = 'E:\spark-idea\spark-2.4.3-bin-hadoop2.7'

os.environ['JAVA_HOME'] = 'C:\Program Files\Java\jdk1.8.0_191'

os.environ['HADOOP_HOME'] = 'E:\spark-idea\hadoop-2.7.7'

os.environ['PYSPARK_PYTHON'] = 'E:\python34\python.exe'

os.environ['PYTHONPATH']='E:\spark-idea\spark-2.4.3-bin-hadoop2.7\python'

conf = SparkConf().setAppName('WordCount').setMaster('local')
sc = SparkContext.getOrCreate(conf)
numbersRDD = sc.parallelize(range(1,10+1))
print(numbersRDD.collect())

#map()对RDD的每一个item都执行同一个操作
squaresRDD = numbersRDD.map(lambda x: x**2)  # Square every number
print(squaresRDD.collect())

#filter()筛选出来满足条件的item
filteredRDD = numbersRDD.filter(lambda x: x % 2 == 0)  # Only the evens
print(filteredRDD.collect())

#Output:
#[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
#[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]
#[2, 4, 6, 8, 10]

5.运行结果:

成功!

发布了28 篇原创文章 · 获赞 6 · 访问量 2470

猜你喜欢

转载自blog.csdn.net/Kobe_1314/article/details/90740066
今日推荐