前言
之前在本地搭建过spark的开发环境,不过是在mac下搭建的,搭建是根据别人介绍的一篇博文搭建的,没遇到什么问题,所以没有做记录。后来更换电脑成window系统的,在此记录一下,mac版spark环境可参考:
https://www.cnblogs.com/bigdataZJ/p/hellospark.html
1、java 环境变理配置
我安装的是jdk1.8
只要是java开发,应该都已经安装好了jdk
,所以jdk
的安装方法这里不再记录。
2、scala安装
如果你是scala语言开发,可以安装scala,如果你也是java可以不用安装。
3、spark安装
官网下载地址:http://spark.apache.org/downloads.html
打开官网后,直接选择你需要下载的版本下载,解压后 在path下添加环境变量
在path后面添加你的spark解压的路劲到bin
文件夹,如:D:\Spark\bin
。
添加完环境变量后,可以打开一个cmd
运行spark-shell
,此运行会报下面错误:
没有找到hadoop
,spark
是依赖hadoop
的,所以还需要安装hadoop
。
4、安装hadoop
官网下载hadoop
:
https://archive.apache.org/dist/hadoop/common/hadoop-2.6.4/
这里我下载的是2.6.4
版本,因为需要和下载的spark1.6.2
版本对应。
运行spark-shell
报错:
解决参考:
https://stackoverflow.com/questions/32721647/why-spark-shell-fails-with-nullpointerexception
1、Downloadwinutils.exe
from the repository 下载winutils.exe
到本地,然后复制到你的spark
路径的bin
目录下
2、添加HADOOP_HOME
环境变量 C:\sharesoft\spark-1.6.2-bin-hadoop2.6
3、建立文件夹c:\tmp\hive
4、打开cmd
执行C:\sharesoft\spark-1.6.2-bin-hadoop2.6\bin\winutils.exe chmod 777 \tmp\hive
完成。再执行spark-shell
成功:
然后你就可以在你的工程中引入java-spark
的依赖就可以开发了