基于eclipse的spark开发环境搭建-python篇

软件版本说明

  1. java版本 :64位jdk-8u111-windows-x64.exe
  2. eclipse版本:64位scala-SDK-3.0.3-2.10-win32.win32.x86_64.zip
    下载地址:
  3. python版本:python2.7
    下载地址:https://www.python.org/downloads/windows/
  4. spark版本spark-1.6.0-bin-hadoop2.6
    下载地址:http://spark.apache.org/downloads.html
  5. hadoop版本hadoop-2.6.0
    下载地址:http://www.barik.net/archive/2015/01/19/172716/
  6. 操作系统版本WIN7

windows下python的安装

  1. 到https://www.python.org/downloads/windows/页面选择需要下载的python版本,我这里下载的是python2.7
  2. 安装python
  3. 将C:\Python27;C:\Python27\Scripts;添加到环境变量Path中
  4. 配置环境变量PYTHON_HOME:C:\Python27
  5. 配置环境变量PYTHON_EASY_HOME:C:\Python27\Scripts

windows下spark的安装

  1. 到http://spark.apache.org/downloads.html页面下载对应的spark版本,当前最新的spark版本2.1.0不支持windows的安装,因此这里我选择spark1.6.3版本进行安装
  2. 将下载spark-1.6.0-bin-hadoop2.6.tgz的压缩包,进行解压缩
  3. 将G:\java\software\spark-1.6.0-bin-hadoop2.6\bin添加到环境变量Path中去
  4. 配置环境变量SPARK_HOME G:\java\software\spark-1.6.0-bin-hadoop2.6
  5. 下载spark-1.6对应的hadoop-2.6,下载地址为http://www.barik.net/archive/2015/01/19/172716/
  6. 解压下载的hadoop-2.6.0.tar.gz
  7. 将G:\java\software\hadoop-2.6.0\bin添加到环境变量Path中去
  8. 创建HADOOP_HOME值为:G:\java\software\hadoop-2.6.0
  9. 将spark目录下的pyspark文件夹整个文件夹G:\java\software\spark-1.6.0-bin-hadoop2.6\python\pyspark拷贝到python安装目录C:\Python27\Lib\site-packages中
  10. 在cmd命令窗口运行pyspark,检查spark是否正常安装成功
  11. 在cmd命令行中运行pip install py4j安装相关库,如下图


     

eclipse安装pyDev插件

  1. 访问http://www.pydev.org/history_pydev.html页面去pydev的官网查看eclipse与pydev的版本对应信息,
  2. 访问http://www.pydev.org/download.html 页面获取对应pydev的在线安装的URL
  3. 当前eclipse为4.3,选择pyDev5.20进行安装,因此URL为http://www.pydev.org/update_sites/5.2.0/
  4. 打开eclipse,选择Help->Install New Software


     

     


    选择安装插件:这里不建议将“Contact all update sites during install to find required software”前面的勾去掉,以免造成插件缺少依赖的软件导致不能正常使用


     

     

     

猜你喜欢

转载自wsppstwo.iteye.com/blog/2357468
今日推荐