为pyspark中的python安装numpy、py4j模块

Python3.6.5中并没有实现安装好numpy跟py4j的包,但是这两个包是pyspark以及其中的MLlib运行必不可少的模块,因此需要为pyspark使用的Python3.6.5安装模块包。

环境:

Python3.6.5

Spark1.6.3

hadoop2.6.4

centos6.8

步骤:

1.下载numpy跟py4j的安装包,https://pypi.org/project/numpy/,https://pypi.org/project/py4j/,https://www.py4j.org/install.html

选择zip包

2.上传到Linux的任意目录下,使用unzip解压,需要在每个Spark的子节点执行这一步骤,这里以安装numpy为例,py4j及pip方法一致

unzip numpy-1.15.1.zip

扫描二维码关注公众号,回复: 5586802 查看本文章

3.进入numpy

cd numpy-1.15.1

4.执行以下命令

python3 setup.py install    //python3是Python3.6.5在/usr/bin下的软连接

安装过程可能会提示以下错误

解决方法:安装devel

yum install -y python-devel

再重新执行python3 setup.py install

5.退出numpy目录,进入python3环境,测试是否安装了numpy

import numpy

6.启动Spark,验证是否可以导入numpy

猜你喜欢

转载自blog.csdn.net/ringsuling/article/details/82697257
今日推荐