集群镜像制作好了,并且上传到Docker_hub 中的reganzm/spark_cluster,可以使用docker search reganzm/spark_cluster,然后把
这个镜像Pulll到本地,使用上面的build_network.sh,start_container.sh分别构建网络,启动容器就可以一键启动集群学习环境了!
- 从Docker Hub上拉取docker.io/reganzm/spark_cluster镜像文件,这个镜像文件是我事先制作好的,可以直接使用该镜像文件构建
Spark和hadoop集群
docker search reganzm/spark_cluster
拉取命令:
docker pull docker.io/reganzm/spark_cluster
运行完成之后,使用docker images可以看到本地的镜像列表 - 构建DockerNetworking
新建并使用sh build_network.sh运行build_network.sh,内容如下:
运行完成之后,使用docker network ls查看创建的网络echo create network docker network create --subnet=172.16.0.0/16 spark echo create success docker network ls
- 使用sh run_containers.sh运行脚本,启动容器
启动后使用docker ps
查看容器
可以看到有hadoop-master,hadoop-slave1,hadoop-slave2,hive,mysql
五个容器启动起来了。 - 为了停止容器,这里新建一个stop_containers.sh脚本,需要停止容器时,运行
sh stop_containers.sh
,注意stop_containers.sh会删
除容器,里面的数据随之删除! - 启动起来之后,可以使用d
ocker exec -it hadoop-master /bin/bash
进入hadoop-master节点的容器中。这里建议安装fish插件,可
以记住并提示使用过的历史命令。centos中安装fish很简单yum install fish
,可能需要安装yum源,具体的可以网上所搜。
启动fish,然后键入命令可以看到历史的命令了 - 从打印信息来看默认使用的是python2.7版本。可以通过修改默认版本来将python版本改为python3.6.1,这里因为spark中Python2.7和
python3.x的使用都是一样的,因此我们使用默认的python2.7版本,如果你有强迫症,可以对照这个课堂笔记将默认的python版本改为
3.x。
jupyter:
http://note.youdao.com/noteshare?id=e9aeefa075413da0f2c8ca0594e5d1d4&sub=CF59080CB5DA4EF3BC47BCC003C282EF
zeepline:
http://note.youdao.com/noteshare?id=c9827c3eb200c8ce90894820a566560c&sub=F738636678B84072A636D454925D3833
http://note.youdao.com/noteshare?id=48cae00fcf4f0f6c056e6a7a825cb930&sub=E5A7364AA2B1475689F0AC0C09C09CFF
网盘地址:
链接:https://pan.baidu.com/s/1i8yO2X25TZ0ofSEXPmIq-g 密码:akfq