spark安装以后以pyspark启动spark交互式界面的时候,默认是系统自带的Python版本启动,而本机是以python2的版本启动,如下所示:
spark要以python3的方式启动,需要本地安装有python3,如果没有可以参照下面的方式安装python3,然后在配置文件中加入PYSPARK_PYTHON变量,指定python3的路径信息:
第一步:本地安装python3
本机是centos6.6的系统,Python版本到官网下载安装包:https://www.python.org/downloads/,根据自己的需求,下载对应的python包。
本文下载的xz版本的源码Python包,如图所示,根据自己的需求下载对应的版本:
Python的包安装过程:
# 准备编译环境
yum groupinstall 'Development Tools'
yum install zlib-devel bzip2-devel openssl-devel ncurses-devel
# 创建安装目录
mkdir /usr/local/python3
# 解压
tar -xvJf Python-3.6.5.tar.xz
# 编译安装
cd Python-3.6.5
./configure --prefix=/usr/local/python3 --enable-optimizations
make && make install
# 创建软连接
ln -s /usr/local/python3/bin/python3.6 /usr/bin/python3
注意:要安装包的编译环境,否则会出现错误。
第二步:加入PYSPARK_PYTHON变量
# 编辑.bashrc文件
vi ~/.bashrc
加入变量
# 加入PYSPARK_PYTHON
export PYSPARK_PYTHON=/usr/local/python3/bin/python3
更新配置文件
# 更新配置文件
source ~/.bashrc
重新启动pyspark,如图所示
或者在使用pycharm开发的时候导入环境变量就可以。