1.安装jdk
jdk下载地址
然后一步一步安装jdk就可以了。
检测jdk是否安装成功:
java -version
2.安装scala
Scala下载地址
解压Scala包
配置.bash_profile 文件,没有就重建一个
export SCALA_HOME=你自己的scala的安装目录/scala-2.12.2/
export PATH=PATH:PATH:SCALA_HOME/bin
3.安装spark
spark下载目录
a.解压spark包
b.配置.bash_profile 文件
export SPARK_HOME=spark 安装目录/spark-2.1.1-bin-hadoop2.7/:
export PATH=PATH:PATH:SPARK_HOME/bin
c.打开系统设置中–>共享—> 远程登陆
d.查看用户目录是否有.ssh/,没有就重新生成
e.进入到spark安装目录的sbin/目录下,执行 ./start-all 启动spark
执行jps 命令
f.进入到spark安装目录的bin/目录下,执行 ./spark-shell,看spark 是否安装成功
- 1
- 2
如果出现这个,说明spark安装成功
如果没有安装成功
安装好spark,scala, java, hadoop并设置好相应环境变量后,在终端输入spark-shell
时出现以下错误:
- 但启动
pyspark
却可以正常使用。google了好久,尝试了各种可能的修改方法,最终查出是我安装的java9,与spark兼容出现问题,而python不需要jdk,所以启动pyspark就没有问题。
剩下的就是卸载java9,安装java8了。
py4j.protocol.Py4JJavaError错误
sudo rm -rf /Library/Java/JavaVirtualMachines/jdk-9.0.1.jdk
在安装java8就行了
如果不换成java8,在pycharm中也会报Py4JJavaError的错误
java官方给出的卸载方案是,在“终端”窗口中,复制和粘贴命令:
最后删除相应的jdk文件(/Library/Java/JavaVirtualMachines/jdk9.jdk)即可完成java的卸载。
重新安装好java8后,spark-shell
正常启动scala。
pycharm上配置环境
设置configurition---Environment--- Environment variables ---点击“...”,出现框框,点击+,输入两个name,一个是SPARK_HOME,另外一个是PYTHONPATH,设置它们的values,SPARK_HOME的value是安装文件夹spark-2.1.1-bin-hadoop2.7的绝对路径,PYTHONPATH的value是该绝对路径/python,例如我的SPARK_HOME的value是/Applications/spark/spark-2.1.1-bin-hadoop2.7,那么我的PYTHONPATH的value是/Applications/spark/spark-2.1.1-bin-hadoop2.7/python 。设置好了保存。(注意不管是路径的哪里,都不能有空格!!尤其是结尾!!今天下午就因为一个空格折磨我好久)