笔者实验室的图形工作站基于Ubuntu 18.04 LTS，按照官方给出的建议适配方案，适配最新的2.x版Tensorflow最合适，安装1.14版的tensorflow总是会出现各种奇奇怪怪的兼容性问题。而这台服务器使用的人很多，每个人所用的版本各不相同，为了更好的适应每个人的使用。笔者安装了docker版的tensorflow-gpu。它只需要安装基本的显卡驱动和docker以及nvidia-container-toolkit即可，非常方便使用，不用考虑cuda，cudnn等的兼容性问题。

从Tensorflow官方网站开始

由于软件是与时俱进的，你需要获得最新的安装信息。根据官网的信息显示，19.03之前和之后的Docker安装Tensorflow-gpu,安装过程略微有差异，所以在安装前先仔细看看安装说明
Docker|Tensorflow
在这里插入图片描述

镜像的选择和拉取

安装Dokcer比较简单，笔者不多做叙述，不会安装的去网上查找资料安装（说句题外话，Google查找出来的结果比百度优质多了）。先去tensorflow的docker镜像索引
在这里插入图片描述
在这里找到自己适合的版本，笔者需要基于jup的1.14-gpu版本，他后面有一个命令，在终端执行安装

拉取之后，执行命令查看镜像是否被成功拉取

docker images

可以看到已经被成功拉取的镜像

Nvidia工具包的安装

去NVIDIA Container Toolkit项目地址获取更多信息
在这里插入图片描述
上面有详细的安装信息
Ubuntu 16.04/18.04, Debian Jessie/Stretch/Buster

# Add the package repositories
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

这是笔者系统的安装方式，更多详见项目地址文档
运行务必使用


# Specifying a capability (graphics, compute, ...) for my container
# Note this is rarely if ever used this way
docker run --gpus all,capabilities=utility nvidia/cuda:10.0-base nvidia-smi

笔者用前两种发生了未知错误
Error response from daemon: could not select device driver “” with capabilities: [[gpu]].

运行Docker镜像，并设置自动重启

执行下列命令可以启动

docker run --gpus all,capabilities=utility -it --restart=always -p 12345:8888 镜像名：tag

解释一下
docker run
启动的意思
gpus all,capxxxxx
all表示使用所有gpu,这个命令就是上面提到的运行工具包命令
restart=always
总是自动启动，开机可以自启
p xxx:8888
把镜像中的8888端口映射到你主机的xxx端口
镜像名：tag
执行

dokcer images

可以看
在这里插入图片描述
可以看到这样就成功了，他会提示token，你需要记着，然后访问网址，改密码

STL_CC

发布了46 篇原创文章 · 获赞 11 · 访问量 6522

私信关注

深度学习图形工作站环境安装与配置（5）Tensorflow兼容性终极解决方案，用Docker安装多版本Tensorflow，Docker19.03以后版本安装Tensorflow-gpu

从Tensorflow官方网站开始

镜像的选择和拉取

Nvidia工具包的安装

运行Docker镜像，并设置自动重启

猜你喜欢