VM上spark安装+jupyter交换环境配置(windows操作虚拟机下的jupyter)

注:个人学习笔记。

一:spark安装

1.去Apache官网下载对应Hadoop版本的spark(我是Hadoop2.6,Hadoop安装跳过)。补充一句:因为spark是上层应用,里面还是基于Hadoop的hdfs文件系统和yarn的资源调度,所以要先安装Hadoop。
http://spark.apache.org/downloads.html
这里写图片描述
2.上传至对应的目录,解压,里面有Python的接口。
这里写图片描述
3.配置环境:

#spark
export SPARK_HOME=/home/llb/9E/software/spark-2.3.1-bin-hadoop2.6
export PATH=$SPARK_HOME/bin:$PATH
#add spark to python
export PYTHONPATH=/home/llb/9E/software/spark-2.3.1-bin-hadoop2.6/python

  具体目录根据自己的安装环境来。输入source /etc/profile使之生效。输入 pyspark 检查是否出现如下画面,若是,则成功。
  这里写图片描述

二:配置jupyter交互界面

1.安装jupyter

pip install jupyter

  提示无法识别 pip,解决办法: yum -y install epel-release ,然后再执行 yum install python-pip 。
  可以使用下面的镜像源来装,很快

sudo pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ 包名

但是报错,
这里写图片描述
解决办法:yum install python-devel
输入:jupyter notebook 弹出对应的地址:
这里写图片描述

2.配置Linux下的jupyter在windows下的浏览器打开(我比较喜欢windows)

1.jupyter notebook --generate-config
生成文件:Writing default config to: /home/llb/.jupyter/jupyter_notebook_config.py
2.配置秘钥:
    python
    from notebook.auth import passwd
    passwd()
    根据提示输入密码
3.
vim ~/.jupyter/jupyter_notebook_config.py
下面是需要改的:
c.NotebookApp.ip = '*'
c.NotebookApp.password = u'sha1:bcd259ccf...<你自己生成的hash密码>'
c.NotebookApp.open_browser = False

  修改后,输入jupyter notebook 启动,然后复制网址,在windows的浏览器打开,输入密码,即可进入Linux当前用户的家目录。
这里写图片描述
  后面就和windows下的jupyter一模一样。

3.将pyspark与jupyter连接

sudo vim /etc/profile

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

这样只需在命令段输入:pyspark 就会打开对应的jupyter,然后输入网址进行操作。

猜你喜欢

转载自blog.csdn.net/qq_15220357/article/details/81152957
今日推荐