【亲测有效】 深度学习环境配置(ubuntu16.04+CUDA9.0+CUDNN7.4+TensorFlow)

安装ubuntu16.04 LTS

这一步网上很多参考资料,照着做即可,最好安装英文版的(中文版的后边进入命令行界面后,中文目录会出现很多乱码。。。)另外注意下分区即可。具体可参考以下博客
Windows下安装Ubuntu 16.04双系统
Windows 下安装 Ubuntu 双系统(更新)

安装NVIDIA显卡驱动

下载驱动

NVIDIA官网上下载与自己显卡型号对应的驱动(注意最好不要最太新的就好。。。在最后这个“最新”选项框可以选择老一些的版本,否则后边cuda、cudnn都要相应地安装最新版,可能TensorFlow还没相对应的版本发布,自己就曾经踩过这个坑,只能全部重装一次。。。)
在这里插入图片描述

安装步骤

一、 禁用secure Boot(这一步具体我也不是很懂,好像是电脑启动引导设置为UEFI的需要执行此操作,我自己的机子不是该方式,所以没做这一步,看到网上有人列出,故提一下) secure Boot 会阻止第三方驱动安装,安装nvidia显卡驱动需要禁用该功能。很多朋友被迫BIOS里面禁用UEFI,这样虽然可以解决问题,但是会影响Windows 等系统的启动。

其实,可以不禁用BIOS里面的UEFI安全启动。 用Mok管理工具,禁用 shim->grub2 这一步之后的校验就行了。 用Mok管理工具,禁用 shim->grub2 这一步之后的校验就行了sudo mokutil --disable-validation
(如果提示没有mokutil,先执行sudo apt install mokutil,安装软件前可以先更换源,换成国内的一些镜像源,阿里云和清华源都可以)

输入上述命令,会要求你设置一个 8-16位的密码,你设置好后(比如8个8)重启,重启第一次,会有几秒钟提示你按任意键进入MoK管理界面,然后按照提示输入刚才设置的密码对应位,然后管理Mok,禁用Secure boot 即可

二、 禁用集成显卡驱动:ubuntu 16.04默认安装了第三方开源的驱动程序nouveau,安装nvidia显卡驱动首先需要禁用nouveau,不然会碰到冲突的问题,导致无法安装nvidia显卡驱动。

  1. 编辑文件blacklist.conf
sudo gedit /etc/modprobe.d/blacklist.conf

或者

//若未安装vim则先执行sudo apt-get install vim安装或使用vi进行编辑
sudo vim /etc/modprobe.d/blacklist.conf
  1. 打开文件后,在文件最后部分插入以下两行内容
blacklist nouveau
options nouveau modeset=0 //这句网上的教程有的加了有的没加,不清楚具体做什么的。。我自己没加也ok的
  1. 更新系统
sudo update-initramfs –u

在这里插入图片描述
4. 然后重启电脑,发现GUI变化了,初步说明显卡禁用成功
在这里插入图片描述
5. 验证nouveau是否已禁用
输入lsmod | grep nouveau,没有显示任何信息说明禁用成功,接下来可以安装nvidia的显卡驱动了。
在这里插入图片描述
6. 按ctrl+alt+f1进入命令行界面
会先让你输入账号密码登陆,注意要用字母键盘上方的数字键才有效。。。不然会一直提示密码错误,亲测原因其实是小键盘的输入无效。
输入sudo service lightdm stop //这个是关闭图形界面,不执行会出错
卸载掉原有驱动
sudo apt-get remove nvidia- * //若安装过其他版本或其他方式安装过驱动才需要执行此项
7. 进入NVIDIA显卡驱动run文件所在目录,修改run文件权限
sudo chmod a+x NVIDIA-Linux-x86_64-384.130.run
运行run文件进行安装:
sudo ./NVIDIA-Linux-x86_64-396.18.run -no-x-check -no-nouveau-check -no-opengl-files
关键!注意加入以下参数:(否则可能会出现问题,这里我自己就曾经踩过坑)
-no-x-check:安装驱动时关闭X服务,不进行这一步的话可能会出现以下错误
在这里插入图片描述
-no-nouveau-check:安装驱动时禁用nouveau
-no-opengl-files:只安装驱动文件,不安装OpenGL文件,只有禁用OpenGL安装才不会出现循环登陆的问题
8. 开始安装
安装过程中出现的选项:
The distribution-provided pre-install script failed! Are you sure you want to continue?
选择 yes 继续。
Would you like to register the kernel module souces with DKMS? This will allow DKMS to automatically build a new module, if you install a different kernel later?
选择 No 继续
问题大概是:Nvidia’s 32-bit compatibility libraries? 选择 No 继续
Would you like to run the nvidia-xconfigutility to automatically update your x configuration so that the NVIDIA x driver will be used when you restart x? Any pre-existing x confile will be backed up.
选择 Yes 继续

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
9. 挂载Nvidia驱动 modprobe nvidia
10. 检查驱动是否安装成功: nvidia-smi
在这里插入图片描述
11. 安装成功,重启电脑

以上内容部分参考自https://blog.csdn.net/xunan003/article/details/81665835

安装CUDA

一、先安装cuda的一些依赖库(缺少这些依赖可能会无法安装成功)

扫描二维码关注公众号,回复: 8765307 查看本文章
sudo apt-get install freeglut3-dev build-essential libx11-dev libxmu-dev libxi-dev libgl1-mesa-glx libglu1-mesa libglu1-mesa-dev

这些是个什么库其实我也不懂。。。反正是参考网上的教程的,我自己是采用deb文件安装的,之前没有进行这一步好像也没出什么问题。

参考链接:https://blossomnoodles.github.io/cnBlogs/2018/04/30/Ubuntu18.04-Tensorlow-install.html

二、CUDA9.0下载地址
网速不是很快的话选择前两种类型的文件比较好,其中runfile是离线安装包,我这里选择的是deb,比较方便,按照官网提供的安装命令操作即可。
在这里插入图片描述
三、修改环境变量
CUDA完成安装之后,还需要添加环境变量,打开终端,输入下面的命令:

export PATH=/usr/local/cuda-9.0/bin${PATH:+:${PATH}}

如果是64位系统,输入:
export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
如果是32位系统,输入:
export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
更新bashrc文件:source ~/.bashrc
重启一下电脑:sudo reboot
重启后,测试CUDA是否安装成功:

cd ~/NVIDIA_CUDA-9.0_Samples/1_Utilities/deviceQuery //进入该目录
make -j    //-j是最大限度的使用cpu编译,加快编译的速度

编译过程可能出现的问题:

  • 输入make后系统就会自动进入到编译过程,整个过程大概需要十几到二十分钟。如果出现错误的话,系统会立即报错停止。
  • 第一次运行时可能会报错,提示的错误信息可能是说系统中没有gcc,解决办法就是通过命令重新安装gcc就行,在终端输入:$ sudo apt-get install gcc 安装完gcc后,再make应该就正常了。
  • 有时可能还会报错如下:
    在这里插入图片描述
    原因是权限不够,加上sudo即可。如果编译成功,最后会显示Finished building CUDA samples,如下图所示。
    在这里插入图片描述
    sudo ./deviceQuery 会输出相应的显卡性能信息,Result = PASS,表明CUDA安装成功
    在这里插入图片描述
    按照前面设置完环境变量后,输入nvcc --version可以查看cuda版本
    在这里插入图片描述
    还可以用Samples试一下是否安装成功:
cd ~/NVIDIA_CUDA-9.0_Samples/5_Simulations/smokeParticles
make
../../bin/x86_64/linux/release/smokeParticles

出现烟雾的图像说明编译成功
在这里插入图片描述
可以通过命令nvidia-smi查看GPU是否在使用:
在这里插入图片描述

安装CUDNN 7.4

一、cudnn官方下载地址
在这里插入图片描述
备注:
需要注册账号登陆后才能下载,如果下载不方便,这里提供百度云下载
链接:https://pan.baidu.com/s/11AxudhGg3KicM8NzBjvFiw
提取码:w214

二、进入文件所在目录下解压文件

sudo tar -zxvf ./cudnn-9.0-linux-x64-v*.tgz //对应自己下载的cudnn版本号
sudo cp cuda/include/cudnn.h /usr/local/cuda/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

然后把lib64文件夹添加到环境变量:

cd ~
sudo gedit .bashrc

在文档最后一行加入:

export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

保存

source .bashrc

这样cuDNN就安装完成了,可以通过以下命令查看cudnn版本

cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

在这里插入图片描述

安装Anaconda及TensorFlow

一、安装anaconda3
对于anaconda3 的安装非常简单,从官网中直接下载.sh文件。
到下载文件所在目录下执行:

bash Anaconda3-*-Linux-x86_64.sh //具体输入你所下载的版本

需要查看注册信息,回车浏览完信息即可
在这里插入图片描述
中间有个地方会问你是否需要添加环境变量,输入“yes”选择加入环境变量
在这里插入图片描述
安装完成
在这里插入图片描述
这句话提示,需要在新的终端窗口使用anaconda,打开新的终端,查看相应的版本信息。

在这里插入图片描述
可能还会出现问你是否安装Microsoft vscode,根据个人需要选择是否要安装吧,具体我也不知道对后边会有什么影响,我自己是默认安装了。

更详细的anaconda安装教程可参考:
https://blog.csdn.net/u012318074/article/details/77074665

二、安装TensorFlow
(1)Conda更换国内源:
conda源国内只有清华有,修改源只需输入如下命令:

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes

安装完可运行 conda install numpy 测试一下网速吧~

(2)Pip更换源:
临时更换使用一次

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package

注意,simple 不能少, 是 https 而不是 http

设为默认源
升级 pip 到最新的版本 (>=10.0.0) 后进行配置:

pip install pip -U
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

(3)在终端直接用pip对TensorFlow进行安装:

pip install tensorflow-gpu    // 默认安装最新版本

在这里插入图片描述
(4)测试TensorFlow
下面可以通过一个简单的程序测试TensorFlow是否安装成功。
在终端进入python交互环境下:

import tensorflow as tf 
sess = tf.Session() 
a = tf.constant(1) 
b = tf.constant(2) 
print(sess.run(a+b)) 

3

(5) 可选 在Anaconda中安装Python3.6的虚拟环境
由于Anaconda的python版本是3.7的,我们创建一个Python的虚拟环境

conda create --name myenv python=3.6 #创建myenv环境

虚拟环境主要命令:

source activate myenv             #激活myenv环境

source deactivate myenv          #退出myenv环境

conda remove --name myenv --all  #删除myenv环境(全部删除)

(6) 安装Keras
直接在这个虚拟环境中安装:

pip install keras

(7)安装Pytorch
直接在这个虚拟环境中安装:

conda install pytorch torchvision -c pytorch

如果网速太慢,这里可以把-c参数去掉,并将conda换为国内源

测试Pytorch是否安装成功:

source activate myenv
python

python命令下输入以下代码:

import torch
print(torch.cuda.is_available())

返回True说明安装成功了。

安装SSH server

这一步需要到服务器的桌面终端中输入:

sudo apt-get update
sudo apt-get install openssh-server

安装完成后可以查查SSH是否启动,输入:sudo ps –e | grep ssh
如果有显示sshd,说明ssh服务已经启动
在这里插入图片描述
如果还没启动,输入sudo service ssh start,启动SSH服务。
这一步完成后,就可以使用ssh工具(如Xshell等)远程连接服务器了。

发布了34 篇原创文章 · 获赞 1 · 访问量 495

猜你喜欢

转载自blog.csdn.net/Mr_SCX/article/details/103147263