使用docker搭建spark分布式集群

集群镜像制作好了,并且上传到Docker_hub 中的reganzm/spark_cluster,可以使用docker search reganzm/spark_cluster,然后把
这个镜像Pulll到本地,使用上面的build_network.sh,start_container.sh分别构建网络,启动容器就可以一键启动集群学习环境了!

  1. 从Docker Hub上拉取docker.io/reganzm/spark_cluster镜像文件,这个镜像文件是我事先制作好的,可以直接使用该镜像文件构建
    Spark和hadoop集群
    docker search reganzm/spark_cluster
    拉取命令:
    docker pull docker.io/reganzm/spark_cluster
    运行完成之后,使用docker images可以看到本地的镜像列表
  2. 构建DockerNetworking
    新建并使用sh build_network.sh运行build_network.sh,内容如下:
    echo create network
    docker network create --subnet=172.16.0.0/16 spark
    echo create success 
    docker network ls
    
    运行完成之后,使用docker network ls查看创建的网络
  3. 使用sh run_containers.sh运行脚本,启动容器
    启动后使用docker ps查看容器
    可以看到有hadoop-master,hadoop-slave1,hadoop-slave2,hive,mysql五个容器启动起来了。
  4. 为了停止容器,这里新建一个stop_containers.sh脚本,需要停止容器时,运行sh stop_containers.sh,注意stop_containers.sh会删
    除容器,里面的数据随之删除!
  5. 启动起来之后,可以使用docker exec -it hadoop-master /bin/bash进入hadoop-master节点的容器中。这里建议安装fish插件,可
    以记住并提示使用过的历史命令。centos中安装fish很简单yum install fish,可能需要安装yum源,具体的可以网上所搜。
    启动fish,然后键入命令可以看到历史的命令了
  6. 从打印信息来看默认使用的是python2.7版本。可以通过修改默认版本来将python版本改为python3.6.1,这里因为spark中Python2.7和
    python3.x的使用都是一样的,因此我们使用默认的python2.7版本,如果你有强迫症,可以对照这个课堂笔记将默认的python版本改为
    3.x。
    jupyter:
    http://note.youdao.com/noteshare?id=e9aeefa075413da0f2c8ca0594e5d1d4&sub=CF59080CB5DA4EF3BC47BCC003C282EF
    zeepline:
    http://note.youdao.com/noteshare?id=c9827c3eb200c8ce90894820a566560c&sub=F738636678B84072A636D454925D3833
    http://note.youdao.com/noteshare?id=48cae00fcf4f0f6c056e6a7a825cb930&sub=E5A7364AA2B1475689F0AC0C09C09CFF
    网盘地址:
    链接:https://pan.baidu.com/s/1i8yO2X25TZ0ofSEXPmIq-g 密码:akfq
发布了63 篇原创文章 · 获赞 52 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/weixin_41521681/article/details/104699029
今日推荐