基于pyspark 和scala spark的jupyter notebook 安装

1.spark安装（本次启动一个worker）

首先安装spark

打开apache spark官网下载页点这里
选择spark版本下载，这里我选spark 2.0.2

spark 2.0.2下载

在linux系统中使用wget下载，wget是一种从网络上自动下载文件的自由工具，支持断点下载，很好用。没有此工具ubuntu,请使用一下语句安装

apt-get install wget
wget https://d3kbcqa49mib13.cloudfront.net/spark-2.0.2-bin-hadoop2.7.tgz

然后解压在安装目录

tar -axvf spark-2.0.2-bin-hadoop2.7.tgz

重新命名安装目录文件名，便于记忆使用

mv spark-2.0.2-bin-hadoop2.7 spark
cd /root/spark/sbin

接着启动spark master 和一个slave(work).一下第一条指令在安装目录启动spark master，第二条指令是进入启动日志中，为了找到spark UI中的地址，截图如下：

复制启动日志地址
使用vim编辑器进入日志，找到spark://.....:7077地址，启动slave时使用

 ./start-master.sh
 vim /root/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-localhost.out
 ./start-slave.sh spark://localhost.localdomain:7077

查看是否启动成功

ps -ef|grep spark

截图如下，说明启动spark和一个worker成功

分别启动一个master和worker

浏览器输入你的9.xx.xx.xx:8080，出现spark界面

spark工作界面

2. 安装jupyter notebook

下载Anaconda3 找到linux环境下的python3的下载，复制链接，在命令行，使用wget下载工具下载
Anaconda官方下载页

wget https://repo.continuum.io/archive/Anaconda3-4.3.1-Linux-x86_64.sh

使用bash安装,接连按很多次enter建，当出现是否时填yes,是否添加、/root/Anaconda到./bashrc时，回答yes，否则需要自己设置PATH路径，并影响jupyter notebook使用，显示找不到jupyter命令。**Note:**Anaconda3中自带jupyter notebook，也可以使用anaconda2 安装python2.7，但是不自带jupyter notebook，需手动安装

bash Anaconda3-4.3.1-Linux-x86_64.sh

查看是否内置安装时内置PATH

这里写图片描述

vim ~/.bashrc

测试是否安装成功：

jupyter notebook

若你的linux系统有浏览器，则安装成功会在浏览器打开notebook编辑页
若你的linux没有浏览器，出现如下界面，说明你的linux环境找不到浏览器。此时我们也可以使用远程浏览器打开，比如一个可以连接你linux ip的windows 浏览器

这里写图片描述

此时只能使用本机浏览器打开，若需要外部访问，还需要设置jupyter的配置文件，使可以远程浏览器访问，若本机存在浏览器，则跳过这一步。

创建并编辑config file，取消注释并设置IP，以及设置禁止自动打开浏览器

 jupyter notebook --generate-config
 vim /root/.jupyter/jupyter_notebook_config.py

打开配置文件后找到如下设置，取消注释，并将c.NotebookApp.ip修改为你的ip地址，将 c.NotebookApp.open_browser修改为false

c.NotebookApp.ip = '9.xx.xx.xx'
c.NotebookApp.open_browser = False

第一次在远程浏览器使用jupyter时，需要复制token到浏览器，即

这里写图片描述

如上图，我的token为
http://104.128.92.12:8888/?token=bc01c6fcbe2656dc1fd250c94d6fd0fcadbe5df1b1cd0e01，复制到远程浏览器，就可以打开notebook编辑界面，如下图：

这里写图片描述

3.安装spark kernel

到目前为止jupyter只有一个默认的python3的kernel,而且并没有连接任何spark.使用一下命令查看

 jupyter kernelspec list

1 基于pyspark的jupyter notebook

此处我们使用spark bin目录下的pyspark连接notebook,即启动./pyspark默认启动notebook.只需要在全局文件./bashrc中设置即可。

打开./bashrc文件

vim ~/.bashrc

添加如下两条全局命令


export PYSPARK_DRIVER_PYTHON=jupyter 
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"

在spark bin目录下测试notebook是否安装了pyspark，成功即出现如下图：

cd /root/spark/bin
./pyspark

这里写图片描述

2 基于Scala spark的jupyter notebook

此处使用Apache toree给notebook安装scala kernel

toree官网下载页,不需要解压，直接使用pip install安装

wget https://dist.apache.org/repos/dist/dev/incubator/toree/0.2.0/snapshots/dev1/toree-pip/toree-0.2.0.dev1.tar.gz
pip install toree-0.2.0.dev1.tar.gz

接着使用一下命令安装，其中spark://localhost.localdomain:7077为你的spark地址，/root/spark为你的spark安装目录

jupyter toree install --spark_opts='--master=spark://localhost.localdomain:7077' --user --kernel_name=Spark2.0 --spark_home=/root/spark

测试是否安装成功，列出kernel列表，发现有两个kernel：python3 和spark 2.0_scala

jupyter kernelspec list

这里写图片描述

此时，python和scala版的jupyter安装成功

这里写图片描述

参考链接
http://blog.csdn.net/suzyu12345/article/details/51037905
https://www.douban.com/note/565651872/