4028GR-TR +Nvidia tesla P4 +Ubuntu 16.04 +CUDA 8.0 深度学习环境搭建

超微 SYS-4028GR-TR 是超微GPU解决方案中一款双路至强E5能支持8张GPU的平台,可支持Nvidia Pascal系列GPU; telsa P100/P40/P4 ,K10/K40/K80/M40/M60/Xeon Phi;以及TITAN XP,GTX 1080TI,GTX 1080 深度学习热门显卡。
       实物图:
SYS-4028GR-TR+tesla P100
 
因为深度学习应用的需求,需要搭建 Nvidia CUDA 环境,本文讲到SYS-4028GR-TR + Telsa P4 GPU 如何安装NVIDIA驱动以及CUDA,已经遇到的一些问题
 
 
环境:
硬件平台:SYS-4028GR-TR;两颗E5-2650 V4 +128G 内存, 及SSD系统盘
系统:ubuntu 16.04 LTS
GPU卡:Nvidia Tesla P4
驱动:nvidia 375.2  + CUDA 8.0
 
会遇到的问题
安装完nvidia的驱动程序,重启登录桌面系统,会陷入循环登录的大坑,但是命令行是可以直接使用,因为ubuntu 系统的问题,桌面支持的不好,P4 的GPU是没有显示输出口,而且一般多GPU服务器,基本都使用主板的集显输出,但是集成的显卡不是nvidid的,打上nvidia的驱动会冲突,导致桌面驱动被破坏,所以需要在安装驱动时避免两个选项
 
Ubuntu 系统安装Nvidia
必须通过runfile 方式安装,有两种方式可选。
1、 http://www.nvidia.com/object/unix.html  通过nvidia官网下载驱动包,选择合适版本驱动
2、 https://developer.nvidia.com/cuda-downloads   直接安装带cuda 8.0的驱动。
 
安装步骤
 1)安装Ubuntu 16.04.02
       安装完成后执行命令安装更新:
sudo apt-get update
sudo apt-get upgrade -y2)下载nvidia 驱动
查看支持的驱动版本
sudo apt-cache search nvidia*
下载 NVIDIA-Linux-x86_64-384.59.run (根据你的版本号)
3)禁用nouveau
新建blacklist-nouveau.conf文件输入命令:
sudo gedit /etc/modprobe.d/blacklist-nouveau.conf

往文件中写入:
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off

保存并退出。这一步是为了禁掉Ubuntu自带开源驱动nouveau。之后sudo reboot重启系统。在登录界面按Ctrl + Alt + F1键,在命令提示符下输入账号密码登录:

lsmod | grep nouveau
查看nouveau模块是否被加载,如果什么都没有输出,则执行下一步。

4)安装驱动
跳转到“Downloads”目录下看到 下载的文件 NVIDIA-Linux-x86_64-384.59.run
执行命令为该文件富裕可执行权限

sudo chmod a+x NVIDIA-Linux-x86_64-384.59.run
sudo service lightdm stop
sudo bash NVIDIA-Linux-x86_64-384.59.run –no-opengl-files
注意:-no-opengl.files 参数非常重要,一定不要忘了添加
Accept License(接受协议)
-Select Continue Installation(选择继续安装)
-Select “NO” to not install 32bit files(选择NO不要安装32位文件)
-Select “NO” to rebuilding any Xserver configurations with Nvidia.(选择“NO”,使用Nvidia重建任何Xserver配置。)
sudo modprobe nvidia
sudo service lightdm start
reboot
在图形界面下登录,完成
输入命令
nvidia-smi
出现:

        

安装成功,接下来在安装cuda时候不要在装驱动了,具体选型如下:

accept/decline/quit: accept
Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 367.48?
(y)es/(n)o/(q)uit: n
Install the CUDA 8.0 Toolkit?
(y)es/(n)o/(q)uit: y
Enter Toolkit Location
[ default is /usr/local/cuda-8.0 ]:
Do you want to install a symbolic link at /usr/local/cuda?
(y)es/(n)o/(q)uit: y
Install the CUDA 8.0 Samples?
(y)es/(n)o/(q)uit: y
Enter CUDA Samples Location
[ default is /home/c302 ]:
Installing the CUDA Toolkit in /usr/local/cuda-8.0 ...
Installing the CUDA Samples in /home/c302 ...
Copying samples to /home/c302/NVIDIA_CUDA-8.0_Samples now...
Finished copying samples.

到此,全部安装成功。

还有另外一张方式是在https://developer.nvidia.com/cuda-downloads 直接下载带驱动的CUDA 安装。
安装选型
sudo service lightdm stop
sudo bash cuda_8.0.61_375.26_linux.run
注意事项:
1、安装OPENGL 是选择NO
2、to rebuilding any Xserver configurations with Nvidia (使用Nvidia重建任何Xerver配置) 选择NO
sudo service lightdm start
安装完成,重启登录

猜你喜欢

转载自blog.csdn.net/qq_16748819/article/details/80045831