一、我们常用的IDE又Intellij IDEA、Eclipse,我选用的是Eclipse编译spark
第一个是使用多年对它比较熟悉,另一个是社区使用Eclipse编译Spark的资料太少
在Windows系统编译Spark源码,除了安装JDK外,还需要安装以下工具。
(1)安装Scala
由于Spark 2.1.0版本的sbt里指定的Scala版本是2.11.8 ,具体见Spark源码目录下的文件\project\plugins.sbt。其中有一行:scalaVersion:="2.11.8"。所以选择下载scala-2.11.8.msi,下载地址:http://www.scala-lang.org/download/。
下载完毕,安装scala-2.11.8.msi。
(2)安装SBT
由于Scala使用SBT作为构建工具,所以需要下载SBT。下载地址:http://www.scala-sbt/org/,下载最新的安装包sbt-0.13.15.msi并安装
(3)安装Git Bash
由于Spark源码使用Git作为版本控制工具,所以需要下载Git的客户端,推荐使用Git Bash,因为它更符合Linux下的操作习惯。下载地址:http://msysgit.github.io/,下载最新的版本并安装。
(4)安装Eclipse Scala IDE插件
要在Eclispe中编译、调试、运行Scala程序,就要安装Eclipse Scala IDE插件。下载地址:http://scala-ide.org/download/current.html。
我本地使用的是直接安装插件的方法,打开Help-->Install New Software...选项,打开Install对话框
name:scala-2.11
location:http://download.scala-ide.org/sdk/helium/e38/scala211/stable/site
点击OK,稍等就会出现如下图示,全选,去掉联网更新插件
一路确定下一步,接着就是漫长的等待
二、下载Spark源码
1、首先访问Spark官网http://spark.apache.org/ 点击下载
接着会看到下一个页面的git地址
在要放源码的盘符下,创建目录,右键打开Git Bash工具,输入
git clone git://github.com/apache/spark.git
2、构建Scala应用
使用cmd命令进入到Spark更目录,执行sbt命令。会下载和解析很多jar包,要等待很长时间,大概一个多小时才执行完吧
3、使用sbt生成Eclipse工程文件