1、在官网的下载页面上,下载对应版本的tgz文件,如spark-2.4.0-bin-hadoop2.7.tgz,然后打开终端,cd到任一文件夹将其解压,移动到/usr/local文件夹内。
tar zxvf spark-2.4.0-bin-hadoop2.7.tgz
mv spark-2.4.0-bin-hadoop2.7 /usr/local
2、spark环境变量配置
open .bash_profile
打开环境变量文件,在文件中添加
#SPARK VARIABLES START
export SPARK_HOME = /usr/local/spark-2.1.0-hadoop2.7
export PATH = ${PATH}:${SPARK_HOME}/bin
#SPARK VARIABLES END
保存该文件,然后输入以下代码使其生效
source .bash_profile
3、测试
在终端输入pyspark
测试,看是否安装成功。
注:
如果安装spark小于2.1的版本,是不支持python3.6的,会出现如下的报错:
TypeError: namedtuple() missing 3 required keyword-only arguments: 'verbose', 'rename', and 'module'
所以可以先通过anaconda创建python3.5的环境,再通过该环境使用spark。
conda create -n py35 python=3.5 anaconda
# 等安装完成后,激活该环境
source activate py35
# 退出该环境
deactivatepy35