版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u013705066/article/details/80030732
利用docker搭建spark集群
这里是docker的文档中心,因此就忽略spark的安装过程。我们这里讲解如何使用Dockerfile生成spark集群环境。
关于spark集群的搭建会在爬虫的数据分析章节来讲述。
笔者使用的是https://github.com/SingularitiesCR/spark-docker 来讲述如何使用docker安装spark集群。
1.利用git下载该项目。因为测试机子上木有安装git。于是手动下载了项目拖到到远程主机上
2.进入项目的主目录。利用dockerfile生成docker镜像(这个dockerfile不是centos的,是debian9)
docker build -t myspark .
-t是起名字 注意最后的一个点必须要。表示dockerfile在当前目录。也可以手动写dockerfile的目录
镜像生成以后,可以使用docker image ls
来查看生成的镜像
REPOSITORY | TAG | IMAGE ID | CREATED | SIZE |
---|---|---|---|---|
myspark | latest | 68123f5404e7 | 28 seconds ago | 1.4GB |
singularities/hadoop | 2.8 | 3bc29b8c3de5 | 5 weeks ago | 1.2GB |
3.创建docker-compose.yml,定义镜像的启动命令
version: "2"
services:
master:
image: singularities/spark
command: start-spark master
hostname: master
ports:
- "6066:6066"
- "7070:7070"
- "8080:8080"
- "50070:50070"
worker:
image: singularities/spark
command: start-spark worker master
environment:
SPARK_WORKER_CORES: 1
SPARK_WORKER_MEMORY: 2g
links:
- master
4.执行docker-compose up即可启动一个单工作节点的standlone模式下运行的spark集群。
5.验证在访问你的宿主机8081端口,即可看到spark的运行界面