机器学习部分:Python开发环境的安装

安装anaconda,用于管理Python的版本

1).window配置python环境变量

window安装python,配置python环境变量。安装python后,在环境变量path中加入安装的路径,cmd中输入python,检验python是否安装成功。

 

注意:如果使用的是anaconda安装的python环境,建议安装python3.5.x版本,这个版本和spark1.6兼容。如何在anaconda中安装python3.5.x版本的python环境?参考文档:“Anaconda安装及使用.docx”

2).window Spark环境变量。

window中配置Spark运行环境及Spark环境变量。

a).解压spark的安装包到磁盘目录

b).在环境变量中配置SPARK_HOME指定解压的路径,配置环境变量。

 

注意:解压spark安装包后,配置环境变量,一定配置到含有bin的外层。

 

3).python中安装py4j模块。

在python环境中安装py4j模块(python调用java API的中间通信模块)

进入C:\Python27\Scripts使用pip install py4j:

pip install py4j  注:卸载python 模块:pip uninstall py4j

 

 

或者,将解压的spark安装包中的

F:\spark-1.6.0-bin-hadoop2.6\python\lib\py4j-0.9-src\py4j拷贝

到C:\Python27\Lib\site-packages中。

验证py4j是否安装成功:进入python ,import py4j

注意:如果使用的是anaconda安装的python3.5.x的环境,之后使用这个python3.5.x环境,一定要将py4j模块放在安装的python3.5.x的目录,即:anaconda目录\envs\Python35【安装python3.5.x版本取的名称\Lib\site-packages\中。

4).在python中安装pyspark模块

使用pip安装pyspark:

pip install pyspark ,会安装最新的版本的pyspark。

或者,将解压的spark安装包中的

F:\spark-1.6.0-bin-hadoop2.6\python\pyspark拷贝到

C:\Python27\Lib\site-packages中,验证pyspark模块是否安装成功:

进入cmd,输入python,导入pyspark模块,如果没错即安装成功。

 

注意:如果使用的是anaconda安装的python3.5.x的环境,之后使用这个python3.5.x环境,一定要将pyspark模块放在安装的python3.5.x的目录,即:anaconda目录\envs\Python35【安装python3.5.x版本取的名称\Lib\site-packages\中。

  1. eclipse开发pyspark程序。

在eclipse中开发pySpark程序,需要安装pydev插件。

1).eclipse安装python插件,安装完成后重启。

 

2). 在window--->preferences中找到python interpreter配置安装python的路径:

 

3).新建python项目:

Python的使用版本有2.7和3.5,两个版本有区别

eclipse安装完成之后,还需要配置:

help——eclipse market——pligin——Windows——preference——Python interpreter——environment——new——pyspark——指定Python3.5的路径,到Python.exe下。

Elicpse开发spark补充配置

  1. 配置SPARK_HOME

  1. 方法一

项目运行-右键->Run As->Run Configurations-Environment-New

新建环境PYSPARK_PYTHON 值为C:\Anaconda3\envs\python35\python.exe(自己所安装的python3.5的目录)

猜你喜欢

转载自blog.csdn.net/wyqwilliam/article/details/81636186