深度学习图形工作站环境安装与配置(5)Tensorflow兼容性终极解决方案,用Docker安装多版本Tensorflow,Docker19.03以后版本安装Tensorflow-gpu

笔者实验室的图形工作站基于Ubuntu 18.04 LTS,按照官方给出的建议适配方案,适配最新的2.x版Tensorflow最合适,安装1.14版的tensorflow总是会出现各种奇奇怪怪的兼容性问题。而这台服务器使用的人很多,每个人所用的版本各不相同,为了更好的适应每个人的使用。笔者安装了docker版的tensorflow-gpu。它只需要安装基本的显卡驱动和docker以及nvidia-container-toolkit即可,非常方便使用,不用考虑cuda,cudnn等的兼容性问题。

从Tensorflow官方网站开始

由于软件是与时俱进的,你需要获得最新的安装信息。根据官网的信息显示,19.03之前和之后的Docker安装Tensorflow-gpu,安装过程略微有差异,所以在安装前先仔细看看安装说明
Docker|Tensorflow
在这里插入图片描述

镜像的选择和拉取

安装Dokcer比较简单,笔者不多做叙述,不会安装的去网上查找资料安装(说句题外话,Google查找出来的结果比百度优质多了)。先去tensorflow的docker镜像索引
在这里插入图片描述
在这里找到自己适合的版本,笔者需要基于jup的1.14-gpu版本,他后面有一个命令,在终端执行安装
在这里插入图片描述
拉取之后,执行命令查看镜像是否被成功拉取

docker images

可以看到已经被成功拉取的镜像

Nvidia工具包的安装

NVIDIA Container Toolkit项目地址获取更多信息
在这里插入图片描述
上面有详细的安装信息
Ubuntu 16.04/18.04, Debian Jessie/Stretch/Buster

# Add the package repositories
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

这是笔者系统的安装方式,更多详见项目地址文档
运行务必使用


# Specifying a capability (graphics, compute, ...) for my container
# Note this is rarely if ever used this way
docker run --gpus all,capabilities=utility nvidia/cuda:10.0-base nvidia-smi

笔者用前两种发生了未知错误
Error response from daemon: could not select device driver “” with capabilities: [[gpu]].

运行Docker镜像,并设置自动重启

执行下列命令可以启动

docker run --gpus all,capabilities=utility -it --restart=always -p 12345:8888 镜像名:tag

解释一下
docker run
启动的意思
gpus all,capxxxxx
all表示使用所有gpu,这个命令就是上面提到的运行工具包命令
restart=always
总是自动启动,开机可以自启
p xxx:8888
把镜像中的8888端口映射到你主机的xxx端口
镜像名:tag
执行

dokcer images

可以看
在这里插入图片描述
可以看到这样就成功了,他会提示token,你需要记着,然后访问网址,改密码
在这里插入图片描述

发布了46 篇原创文章 · 获赞 11 · 访问量 6522

猜你喜欢

转载自blog.csdn.net/STL_CC/article/details/105612292