2.11.3PySpark--安装

总目录:https://blog.csdn.net/qq_41106844/article/details/105553392

Python - 子目录:https://blog.csdn.net/qq_41106844/article/details/105553333

全称Python on Spark,使用spark提供的pyspark库编写spark应用。

pyspark的安装很特殊,为了保持版本一致性,需要从我们spark的安装目录中的Python目录下的lib目录中的pyspark.zip和py4j.zip两个安装包放在我们Windows环境下Python安装路径下的包文件目录中。

 
20155953-c46338ec39407950.png
路径

这是从spark的软件包中展示的目录,需要把它们放在Python环境变量下的包文件目录中解压。

 
20155953-f702a50ac0a18f06.png
解压路径


因为我用的是anaconda,所以解压路径要是这个。

 
20155953-e58f8357ecd34369.png
ok

我们来说一下这两个库的用法:
py4j:
通过py4j,Python可以动态访问java虚拟机中的java对象,java程序也可以回调Python对象。
pyspark:
spark提供的Python编写spark程序的API接口库。

然后将Linux中的Python版本设置成Python3.

安装编译相关工具

yum -y groupinstall "Development tools"
yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel
yum install libffi-devel -y

下载安装包解压

cd /usr/local
wget https://www.python.org/ftp/python/3.7.0/Python-3.7.0.tar.xz
tar -xvJf  Python-3.7.0.tar.xz

编译安装

mkdir /usr/local/python3 #创建编译安装目录
cd Python-3.7.0
./configure --prefix=/usr/local/python3
make && make install

创建软连接

ln -s /usr/local/python3/bin/python3 /usr/local/bin/python3
ln -s /usr/local/python3/bin/pip3 /usr/local/bin/pip3

验证是否成功

python3 -V
pip3 -V
 
20155953-5706593f590d4d2e.png
安装成功
 
20155953-65cd8edaf3f9af96.png
示例

最后将$SPARK_HOME/python/lib/下的两个压缩包解压到Python3.7安装目录下的Lib/site-packages包文件目录下(未编译的Python文件)。

 
20155953-d1f73bfe685652b5.png
import

这样就可以引入这两个包。

然后配置pyspark的Python版本。

 
20155953-4f0dc6b0d8bdac9e.png
spark-env.sh

指定pyspark启动时使用的python版本。

他还有三个配置项:

export PYSPARK_DRIVER_PYTHON=ipython3

指定启动pyspark后的交互式界面,使用ipython3作为默认启动交互界面。

export PYSPARK_DRIVER_PYTHON=jupyter

指定启动pyspark后的交互式界面,使用jupyter作为默认启动的交互界面。

export PYSPARK_DRIVER_PYTHON_OPTS="notebook --no-browser --port 8889 --ip=192.168.110.110"

unset XDG_RUNTIME_DIR

指定ip 和port 可以让同网段的设备访问jupyter 进行pyspark 操作。

然后配置pyspark启动项。

 
20155953-85110fa2ff198fdd.png
pyspark

将版本设置为python3.

 
20155953-0bf9b28b63e5e303.png
ok
发布了242 篇原创文章 · 获赞 60 · 访问量 2186

猜你喜欢

转载自blog.csdn.net/qq_41106844/article/details/105553376
今日推荐