此前尝试过Centos 7搭建深度学习环境,在网上找了无数教程,被折腾的欲仙欲死,最后还是以失败告终,无奈回到tensorflow网站的官方教程,用ubuntu搭建了一个深度学习环境。
春节期间,尝试了docker用docker配置深度学习环境,但当时没有支持深度学习的显卡,所以只测试了tensorflow的CPU版本(见本人另一篇随笔)。
这几天突然想把手边的ubuntu改装为centos,就先查了一下centos + docker配置深度学习环境,发现了一篇教程,这里予以转载,目的是担心原始网页失效。
以下内容转自
https://juejin.im/post/5e6117a9e51d4526fc74a711
且未被本人测试验证。
写在开始
由于实验室配了一台有7块V100的GPU服务器,然后需要整个开放给整个实验室使用。因此不能直接把系统环境拿出来用(谁知道有没有小白乱搞系统环境呢?)。然后调研了两种技术方案:1)LXC系统容器;2)docker应用容器。 好了,坑来了。使用方案一有性能损耗,原因大家自己想吧,反正使用方案一,V100的表现有时候还不如GTX1060。因此转而使用方案(2).这里记录一下具体搭建过程。
开始教程
- 首先安装docker,这里需要安装
>=19.03
的版本,因为在这个版本后,docker直接就支持访问宿主机的GPU设备了。(如果你装了其他的版本,我建议你升级到19.03极其更新的版本)
1 # 安装docker>=19.03的版本 2 ## 查看docker-ce 版本 3 >>> yum list docker-ce --showduplicates | sort -r 4 ## 安装docker-ce19.03 5 >>> yum install docker-ce-19.03 6 ## 允许docker开机自启以及现在运行docker 7 >>> systemctl enable docker.service 8 >>> systemctl start docker 9 ## 检测docker是否安装成功,如果正常显示版本就算是正常了 10 >>> docker --version
- 配置docker镜像加速,您可以通过修改daemon配置文件
/etc/docker/daemon.json
来使用加速器,这里去注册获取加速链接
>>> sudo mkdir -p /etc/docker >>> sudo tee /etc/docker/daemon.json <<-'EOF' { "registry-mirrors": ["your aliyun docker accleration url"] } EOF >>> sudo systemctl daemon-reload >>> sudo systemctl restart docker
- 安装GPU驱动,配置cuda. (吐槽一下,别去看csdn上的教程,坑多的很,直接看NVIDIA官方安装教程)
# 首先去NVIDIA官网下载cuda10.0以及配套的cudnn7 # 然后安装cuda10.0,默认安装目录在/usr/local/cuda >>> sh cuda10.0.run # 配置cudnn ## 需要先把下载cudnn文件后缀名改为.tgz,然后解压 >>> tar -zxvf cudnn10.tgz ## 把动态库拷贝到/usr/local/cuda 对应的文件夹中 >>> cp cuda/include/* /usr/local/cuda/include/ >>> cp cuda/lib64/* /usr/local/cuda/lib64/ ## 然和给执行权限 >>> chmod u+x /usr/local/cuda/include/cudnn* >>> chmod u+x /usr/local/cuda/lib64/libcudnn* ## 检测环境是否安装成功,如果输出相关信息则表明成功. >>> nvidia-smi
- 安装nvidia-docker,官方教程传送门
>>> distribution=$(. /etc/os-release;echo $ID$VERSION_ID) >>> curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.repo | sudo tee /etc/yum.repos.d/nvidia-docker.repo >>> sudo yum install -y nvidia-container-toolkit >>> sudo systemctl restart docker ## 测试nvidia-smi是否可用了,如果有输出显卡相关信息,那就是成功了 >>> docker run --gpus all nvidia/cuda:10.0-base nvidia-smi
- 然后去拉一个自己想要的深度学习环境,可以去nvidia的仓库拉一个对应的
cuda10.0+cudnn7
的镜像,然后自己在里面装conda等,这里不详细展开,大概讲一下去拉一个tensorflow-gpu2.0+py3
的镜像。
# 首先打开网站 https://hub.docker.com/ 然后搜索tensorflow,然后找到自己喜欢的镜像拉下来就好了,我这里拉了一个 tensorflow-gpu2.0+py3 >>> docker pull tensorflow/tensorflow:2.0.0-gpu-py3
- 然后启动一个容器,并为该容器分配显卡
# 这里device=0表示分配第一张显卡给这个容器,并挂载了我的工作目录到容器的home目录下 >>> docker run -itd --gpus '"device=0"' -v /home/lch/for_test:/home container_id bash # 如果你想指定多个显卡到一个容器里面,你可以通过device指定多个设备号来实现 >>> docker run -itd --gpus '"device=0,1,2"' -v /home/lch/for_test:/home container_id bash # 如果你想挂几个显卡到一个容器里面,这里是系统自动指定两张卡到该容器 >>> docker run -itd --gpus 2 -v /home/lch/for_test:/home container_id bash # 如果你想把全部显卡都挂到一个容器里面,你可以通过device指定多个设备号来实现 >>> docker run -itd --gpus all -v /home/lch/for_test:/home container_id bash
- 最后进入容器,测试深度学习环境是否可用
# 进入容器 >>> docker exec -it container_id bash # 启动python,运行tensorflow >>> python $$ import tensorflow as tf $$ tf.test.tf.test.is_gpu_available() $$ gpus=tf.config.experimental.list_physical_devices(device_type='GPU') $$ for gpu in gpus: $$ print(gpu)
true
,并且还输出了设备列表,那就是成功了。如果没有,再找找其他教程看看咯~
再次重申,以上内容未经验证,转自
https://juejin.im/post/5e6117a9e51d4526fc74a711