使用docker搭建spark分布式集群

集群镜像制作好了，并且上传到Docker_hub 中的reganzm/spark_cluster，可以使用docker search reganzm/spark_cluster，然后把
这个镜像Pulll到本地，使用上面的build_network.sh，start_container.sh分别构建网络，启动容器就可以一键启动集群学习环境了！

从Docker Hub上拉取docker.io/reganzm/spark_cluster镜像文件，这个镜像文件是我事先制作好的，可以直接使用该镜像文件构建
Spark和hadoop集群
docker search reganzm/spark_cluster
拉取命令：
docker pull docker.io/reganzm/spark_cluster
运行完成之后，使用docker images可以看到本地的镜像列表
构建DockerNetworking
新建并使用sh build_network.sh运行build_network.sh，内容如下：
```
echo create network
docker network create --subnet=172.16.0.0/16 spark
echo create success 
docker network ls
```
运行完成之后，使用docker network ls查看创建的网络
使用sh run_containers.sh运行脚本,启动容器
启动后使用docker ps查看容器
可以看到有hadoop-master,hadoop-slave1,hadoop-slave2，hive,mysql五个容器启动起来了。
为了停止容器，这里新建一个stop_containers.sh脚本，需要停止容器时，运行sh stop_containers.sh，注意stop_containers.sh会删
除容器，里面的数据随之删除！
启动起来之后，可以使用docker exec -it hadoop-master /bin/bash进入hadoop-master节点的容器中。这里建议安装fish插件，可
以记住并提示使用过的历史命令。centos中安装fish很简单yum install fish，可能需要安装yum源，具体的可以网上所搜。
启动fish，然后键入命令可以看到历史的命令了
从打印信息来看默认使用的是python2.7版本。可以通过修改默认版本来将python版本改为python3.6.1,这里因为spark中Python2.7和
python3.x的使用都是一样的，因此我们使用默认的python2.7版本，如果你有强迫症，可以对照这个课堂笔记将默认的python版本改为
3.x。
jupyter:
http://note.youdao.com/noteshare?id=e9aeefa075413da0f2c8ca0594e5d1d4&sub=CF59080CB5DA4EF3BC47BCC003C282EF
zeepline:
http://note.youdao.com/noteshare?id=c9827c3eb200c8ce90894820a566560c&sub=F738636678B84072A636D454925D3833
http://note.youdao.com/noteshare?id=48cae00fcf4f0f6c056e6a7a825cb930&sub=E5A7364AA2B1475689F0AC0C09C09CFF
网盘地址：
链接：https://pan.baidu.com/s/1i8yO2X25TZ0ofSEXPmIq-g 密码：akfq

assassin_sword

发布了63 篇原创文章 · 获赞 52 · 访问量 4万+

私信关注

使用docker搭建spark分布式集群

猜你喜欢