【转载，未验证】在CentOS7下配置docker深度学习环境

此前尝试过Centos 7搭建深度学习环境，在网上找了无数教程，被折腾的欲仙欲死，最后还是以失败告终，无奈回到tensorflow网站的官方教程，用ubuntu搭建了一个深度学习环境。

春节期间，尝试了docker用docker配置深度学习环境，但当时没有支持深度学习的显卡，所以只测试了tensorflow的CPU版本（见本人另一篇随笔）。

这几天突然想把手边的ubuntu改装为centos，就先查了一下centos + docker配置深度学习环境，发现了一篇教程，这里予以转载，目的是担心原始网页失效。

以下内容转自

https://juejin.im/post/5e6117a9e51d4526fc74a711

且未被本人测试验证。

写在开始

由于实验室配了一台有7块V100的GPU服务器，然后需要整个开放给整个实验室使用。因此不能直接把系统环境拿出来用（谁知道有没有小白乱搞系统环境呢？）。然后调研了两种技术方案：1）LXC系统容器；2）docker应用容器。好了，坑来了。使用方案一有性能损耗，原因大家自己想吧，反正使用方案一，V100的表现有时候还不如GTX1060。因此转而使用方案（2）.这里记录一下具体搭建过程。

开始教程

首先安装docker，这里需要安装>=19.03的版本，因为在这个版本后，docker直接就支持访问宿主机的GPU设备了。(如果你装了其他的版本，我建议你升级到19.03极其更新的版本)

 1 # 安装docker>=19.03的版本
 2 ## 查看docker-ce 版本
 3 >>> yum list docker-ce --showduplicates | sort -r
 4 ## 安装docker-ce19.03
 5 >>> yum install docker-ce-19.03
 6 ## 允许docker开机自启以及现在运行docker
 7 >>> systemctl enable docker.service
 8 >>> systemctl start docker
 9 ## 检测docker是否安装成功，如果正常显示版本就算是正常了
10 >>> docker --version

配置docker镜像加速,您可以通过修改daemon配置文件/etc/docker/daemon.json来使用加速器,这里去注册获取加速链接

>>> sudo mkdir -p /etc/docker
>>> sudo tee /etc/docker/daemon.json <<-'EOF'
{
  "registry-mirrors": ["your aliyun docker accleration url"]
}
EOF
>>> sudo systemctl daemon-reload
>>> sudo systemctl restart docker

安装GPU驱动，配置cuda. （吐槽一下，别去看csdn上的教程，坑多的很，直接看NVIDIA官方安装教程）

# 首先去NVIDIA官网下载cuda10.0以及配套的cudnn7
# 然后安装cuda10.0，默认安装目录在/usr/local/cuda
>>> sh cuda10.0.run
# 配置cudnn
## 需要先把下载cudnn文件后缀名改为.tgz,然后解压
>>> tar -zxvf cudnn10.tgz
## 把动态库拷贝到/usr/local/cuda 对应的文件夹中
>>> cp cuda/include/* /usr/local/cuda/include/
>>> cp cuda/lib64/* /usr/local/cuda/lib64/
## 然和给执行权限
>>> chmod u+x /usr/local/cuda/include/cudnn*
>>> chmod u+x /usr/local/cuda/lib64/libcudnn*
## 检测环境是否安装成功,如果输出相关信息则表明成功.
>>> nvidia-smi

安装nvidia-docker，官方教程传送门

>>> distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
>>> curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.repo | sudo tee /etc/yum.repos.d/nvidia-docker.repo

>>> sudo yum install -y nvidia-container-toolkit
>>> sudo systemctl restart docker
## 测试nvidia-smi是否可用了，如果有输出显卡相关信息，那就是成功了
>>> docker run --gpus all nvidia/cuda:10.0-base nvidia-smi

然后去拉一个自己想要的深度学习环境，可以去nvidia的仓库拉一个对应的cuda10.0+cudnn7的镜像，然后自己在里面装conda等，这里不详细展开，大概讲一下去拉一个tensorflow-gpu2.0+py3的镜像。

# 首先打开网站 https://hub.docker.com/ 然后搜索tensorflow，然后找到自己喜欢的镜像拉下来就好了，我这里拉了一个 tensorflow-gpu2.0+py3
>>> docker pull tensorflow/tensorflow:2.0.0-gpu-py3

然后启动一个容器，并为该容器分配显卡

# 这里device=0表示分配第一张显卡给这个容器，并挂载了我的工作目录到容器的home目录下
>>> docker run -itd --gpus '"device=0"' -v /home/lch/for_test:/home  container_id  bash
# 如果你想指定多个显卡到一个容器里面，你可以通过device指定多个设备号来实现
>>> docker run -itd --gpus '"device=0,1,2"' -v /home/lch/for_test:/home  container_id  bash
# 如果你想挂几个显卡到一个容器里面，这里是系统自动指定两张卡到该容器
>>> docker run -itd --gpus 2 -v /home/lch/for_test:/home  container_id  bash
# 如果你想把全部显卡都挂到一个容器里面，你可以通过device指定多个设备号来实现
>>> docker run -itd --gpus all -v /home/lch/for_test:/home  container_id  bash

最后进入容器,测试深度学习环境是否可用

# 进入容器
>>> docker exec -it container_id bash
# 启动python，运行tensorflow
>>> python
$$ import tensorflow as tf
$$ tf.test.tf.test.is_gpu_available() 
$$ gpus=tf.config.experimental.list_physical_devices(device_type='GPU')
$$ for gpu in gpus:
$$     print(gpu)

如果输出结果为 true,并且还输出了设备列表，那就是成功了。如果没有，再找找其他教程看看咯~

再次重申，以上内容未经验证，转自 https://juejin.im/post/5e6117a9e51d4526fc74a711