深度学习开发环境搭建

&esmp;写在前面: 这是一个失败的教学, 不过里面的坑倒是实实在在的, 一步一步踩了这些坑, 才有最后的的成功啊!!!
上一篇我们搭建了win10+ubuntu18.04双系统, 硬件环境已经准备就绪, 接下来就是搭建软件环境了, 下面先说下需要安装的基本东西, 然后详细介绍搭建过程;

硬件环境:
- 显卡：GeForce GTX 750M
- CPU：corei5
- 系统：Ubuntu 18.04
基本步骤:
- anaconda ：3.5版本
- cuda：9.0版本
- cuDNN： cuDnn v7
- TensorFlow：1.8版本
- Keras：默认安装最新版
  (写于2019/1/23, 后来发现使用anaconda安装tensorflow-gpu的时候, 已经自动把对应版本的cuda和cudnn下载并安装好了\哭, 也就是说只要保证自己的显卡能够支持对应的cuda版本即可, 重点是安装好显卡驱动)

1. anaconda3安装

anaconda能够非常方便的管理Python的各种包, 能够省去很多麻烦, 强烈推荐. 建议用清华大学开源软件镜像网站来下载和安装, 网址:
https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/;
具体安装过程参考博客"Ubuntu18.04 安装 Anaconda3", 链接:
https://blog.csdn.net/qq_15192373/article/details/81091098

2. 安装NVIDIA驱动

基本步骤:

删除旧驱动
sudo apt-get purge nvidia*
禁止自带的nouveau nvidia驱动

# 打开配置文件
sudo vim /etc/modprobe.d/blacklist-nouveau.conf
#填写禁止的内容
blacklist nouveau
options nouveau modeset=0
#跟新配置文件
sudo update-initramfs -u`

然后重启, 重启后发现分辨率降低, 这是配置成功的表现.

#重启后检查nouveau是否被禁用
lsmod | grep nouveau

添加Graphic Drivers PPA
#进入文本模式
init 3
#结束x-window的服务，否则驱动将无法正常安装(按照网上教程做的, 但luffy执行后提示我的笔记本并没有这个服务, 也许道友们也会碰到, 不过无关紧要…)
sudo service lightdm stop
#添加PPA源
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update
#寻找合适的驱动版本
ubuntu-drivers devices

#安装驱动(luffy这里的网太慢了, 用的是学院的无线网, 估计有一个小时吧>–<
sudo apt-get install nvidia-415
#重启
sudo reboot
#查看驱动安装情况
sudo nvidia-smi
sudo nvidia-settings

参考文章: ubuntu16.04下NVIDIA GTX965M显卡驱动PPA安装, https://blog.csdn.net/10km/article/details/61191230
深度学习准备之Ubuntu下装显卡驱动,
https://blog.csdn.net/jasonzhangoo/article/details/54866049

问题

其实这里已经出问题了, 这个表中pwr是N/A, GPU-Util是N/A, 如果显卡驱动生效的话, 这些都应该是有数值的. 安装cuda之前, 还是得先看看自己的GPU是否支持啊) 在这里插入图片描述

3. cuda9.0安装

3.1 先官网上下载run 文件(luffy这里无线网太慢了, 所以现在台式机上下载下来, 然后用U盘拷贝到笔记本上)
在这里插入图片描述

测试:

安装到这里发现了问题, (上面是参照大佬教程这么做的, 但是可能因为我的显卡太low-GT750M, 大佬的是GTX1070ti, 我按照ppa方式安装, 安装了nvidia415版本的驱动, 测试结果发现gpu根本没有启动, 显示not supported);
所以我只好重新安装驱动, 在网上找资料, 采用官网下载, 手动安装, 具体参考博客:
Ubuntu 18.04 NVIDIA驱动安装总结;
Ubuntu 安装nvidia驱动一直遇到 pre-install scipt failed 错误;
Ubuntu 16.04 Nvidia驱动安装

测试
问题: 执行make clean && make 时出错, “permission denied”, 加上"sudo"就好了
sudo make clean && make

总结

这是一次失败的尝试, 失败的点还是在于NVIDIA显卡驱动和CUDA安装这一过程(好多深度学习者都被挡在这里了呀). 我想搭建最新版tensorflow_gpu开发环境, 那么就需要安装CUDA9.0, 但是我的显卡GT750M只能用CUDA3.0. 想找CUDA3.0对应的tensorflow_gpu版本也找不到>_<(Tensorflow不同版本要求与CUDA及CUDNN版本对应关系). 不过正所谓100次失败证明了100条路是走不通的, 不是没有意义, 而且也加深了对NVIDIA驱动和CUDA的理解.
车到山前必有路, luffy决定换一条路, 听说用docker搭建tensorflow GPU环境不需要安装CUDA. 且让老夫试上一试.

参考博客"Ubuntu18.04深度学习GPU环境配置": https://blog.csdn.net/weixin_41863685/article/details/80303963
“ubuntu18.04环境下搭建深度学习的环境”,
https://blog.csdn.net/xd_wjc/article/details/83005148

扫描二维码关注公众号，回复： 5063693 查看本文章

深度学习之路--环境篇(TensorFlow_GPU+CUDA)

深度学习开发环境搭建

1. anaconda3安装

2. 安装NVIDIA驱动

问题

3. cuda9.0安装

总结

猜你喜欢