mac 安装pyspark

1.安装jdk 
jdk下载地址这里写图片描述
然后一步一步安装jdk就可以了。 
检测jdk是否安装成功: 
java -version 
这里写图片描述

2.安装scala 
Scala下载地址 
解压Scala包 
配置.bash_profile 文件,没有就重建一个 
这里写图片描述
export SCALA_HOME=你自己的scala的安装目录/scala-2.12.2/ 
export PATH=PATH:PATH:SCALA_HOME/bin

3.安装spark 
spark下载目录 
这里写图片描述
a.解压spark包

b.配置.bash_profile 文件 
export SPARK_HOME=spark 安装目录/spark-2.1.1-bin-hadoop2.7/: 
export PATH=PATH:PATH:SPARK_HOME/bin

c.打开系统设置中–>共享—> 远程登陆

d.查看用户目录是否有.ssh/,没有就重新生成 
这里写图片描述

e.进入到spark安装目录的sbin/目录下,执行 ./start-all 启动spark 
执行jps 命令 
这里写图片描述

f.进入到spark安装目录的bin/目录下,执行 ./spark-shell,看spark 是否安装成功
  • 1
  • 2

这里写图片描述
如果出现这个,说明spark安装成功

如果没有安装成功

安装好spark,scala, java, hadoop并设置好相应环境变量后,在终端输入spark-shell时出现以下错误:

  • 但启动pyspark却可以正常使用。google了好久,尝试了各种可能的修改方法,最终查出是我安装的java9,与spark兼容出现问题,而python不需要jdk,所以启动pyspark就没有问题。

剩下的就是卸载java9,安装java8了。

py4j.protocol.Py4JJavaError错误

sudo rm -rf /Library/Java/JavaVirtualMachines/jdk-9.0.1.jdk

在安装java8就行了

如果不换成java8,在pycharm中也会报Py4JJavaError的错误

java官方给出的卸载方案是,在“终端”窗口中,复制和粘贴命令:

  •  

最后删除相应的jdk文件(/Library/Java/JavaVirtualMachines/jdk9.jdk)即可完成java的卸载。

重新安装好java8后,spark-shell正常启动scala。

pycharm上配置环境

 设置configurition---Environment--- Environment variables ---点击“...”,出现框框,点击+,输入两个name,一个是SPARK_HOME,另外一个是PYTHONPATH,设置它们的values,SPARK_HOME的value是安装文件夹spark-2.1.1-bin-hadoop2.7的绝对路径,PYTHONPATH的value是该绝对路径/python,例如我的SPARK_HOME的value是/Applications/spark/spark-2.1.1-bin-hadoop2.7,那么我的PYTHONPATH的value是/Applications/spark/spark-2.1.1-bin-hadoop2.7/python 。设置好了保存。(注意不管是路径的哪里,都不能有空格!!尤其是结尾!!今天下午就因为一个空格折磨我好久)

猜你喜欢

转载自blog.csdn.net/zbzckaiA/article/details/81455007
今日推荐