1,使用rufus制作Ubuntu的U盘启动盘
- rufus下载地址:https://rufus.ie/en/
- 我用的是rufus-3.20
- Ubuntu镜像文件是ubuntu-20.04.4-desktop-amd64.iso,下载地址:Ubuntu 20.04.6 LTS (Focal Fossa)
然后如下图,开始
开始之后,会弹框提示选择ISO还是DD模式。特别要注意的,我选的是DD镜像模式
关于ISO和DD模式的区别,大家可以看看这里:boot - Is DD Image disk writing permanent? - Ask Ubuntu
而我使用DD模式的原因只有一个:
使用ISO镜像安装后,启动Ubuntu总是提示“Minimal BASH-like line editing is supported...”然后就是grub提示符的命令行,我试过网上很多方法都解决不了,就用DD镜像方式可以解决。
至于为什么会出现这个提示,大概率是我一番瞎操作把引导区搞没了,当时,我装了Ubuntu又装了Nvidia驱动后,重启、登录Ubuntu之后,黑屏,看不到桌面,只有鼠标,然后就开始瞎操作了。
——几番操作之后,才选择了现在的DD镜像模式!至于登陆后黑屏原因,等下讲到。
2,安装Nvidia驱动
2.1 查看一下有没Nvidia的GPU
先运行一下这条命令
lspci | grep -i nvidia
结果是有的
再试一下
nvidia-smi
结果是 command not found
说明没装GPU驱动
2.2 安装GPU驱动
2.2.1 安装gcc和make
因为是安装之后,刚开始用的,发现gcc和make都没装,
执行命令安装一下
sudo apt install gcc
sudo apt install make
2.2.2:禁用、卸载nouveau驱动
nouveau这个东东就是在安装Nvidia驱动之后造成黑屏的原因。
我自己的处理方式是禁用和删除都是搞:
(1)禁用nouveau
打开blacklist.conf文件:
sudo nano /etc/modprobe.d/blacklist.conf
添加内容:
blacklist nouveau
options nouveau modeset=0
然后退出、保存。
更新内核:
sudo update-initramfs -u
重启:
sudo reboot
(2)卸载nouveau驱动
注,有了删除这一步,可能上面禁用nouveau是多余的,我没去验证,我记录的是实际操作。
特别注意,有些文章说要添加源、降低gcc版本、先删除nvidia驱动的、动不动就升级的,千万不要瞎尝试!
卸载nouveau,使用命令
apt-get --purge remove xserver-xorg-video-nouveau
2.2.3:安装Nvidia驱动
使用命令查看一下
ubuntu-drivers devices
大概是这样子的
然后安装
ubuntu-drivers autoinstall
对的,我就是这么安装的。
然后重启
reboot
重启之后,登录,可以看见桌面 正常看到桌面,
并且输入
nvidia-smi
也有内容显示出来了。
(上面这个图是我后来安装CUDA Toolkit之后截的,原来显示的CUDA Version不是12.2)
3,安装CUDA Toolkit
在这里,提醒大家一下,不要轻易尝试网上的博客,要认真看看Nvidia官网!!
Step1:进入CUDA下载页面
CUDA Toolkit 12.2 Update 2 Downloads | NVIDIA Developer
Step2:根据实际情况,按页面选项认真选择
后面这堆命令顺序执行
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/12.2.2/local_installers/cuda-repo-ubuntu2004-12-2-local_12.2.2-535.104.05-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2004-12-2-local_12.2.2-535.104.05-1_amd64.deb
sudo cp /var/cuda-repo-ubuntu2004-12-2-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda
逐条命令执行,要有耐心,CUDA Toolkit超过2个G大小的
执行完毕之后,可以用nvcc试一下
nvcc -V
结果是command not found,别着急,还有一步。
Step3:在.bashrc加上cuda的路径
执行(主要啊,小数点是在文件名前面,不是在/前面)
sudo gedit ~/.bashrc
然后在最后面加上
export LD_LIBRARY_PATH=/usr/local/cuda/lib64
export PATH=$PATH:/usr/local/cuda/bin
保存文档,退出
然后更新一下
source ~/.bashrc
然后用nvcc再验证了一下
nvcc -V
这个时候我谨慎地重启了电脑
reboot
安装完成之后呢,运行nvidia-smi就会发现CUDA Version也更新了,截图就是我上面运行nvidia-smi后的截图。再说明一下,那个就是安装CUDA之后的截图,原先只安装驱动的时候没截图。
4,安装Anaconda和Pytorch
Step1:到Andaconda官网下载安装文件
我下载到的文件是Anaconda3-2023.07-2-Linux-x86_64.sh,有1.1G多。
Step2:执行.sh文件
bash ./Anaconda3-2023.07-2-Linux-x86_64.sh
Step3:创建环境
安装Anaconda妥当之后,我创建了一个python=3.7、名为py37的环境:
conda create -n py37 python=3.7
然后激活这个环境
conda activate py37
Step4:安装Pytorch
正如我前面所说的,大家不要轻易尝试网上的博客,多看官方网站。这里就要去Pytorch官网了
进入网址:PyTorch
根据实际情况选择,如下我的选择:
注意到,后面有一条命令,记得要在刚才的py37环境执行这条命令:
conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
然后耐心等待就是了,其实也挺快的。
Step5:用Pytorch验证一下CUDA是否有效。
写个python文件
import torch
print(torch.__version__)
print(torch.cuda.is_available())
我们把这个文件保存为test.py,同样是在刚才的py37环境执行:
python test.py
最后结果是
(py37) howard@howard-ubuntu:~/Desktop/work-python$ python test.py
1.13.1
True
这说明Pytorch是可以识别刚才安装的CUDA的。
后话:Ubuntu安装Anaconda之后,每次打开终端都会自动进入base环境,怎么禁止掉呢?
在 ~/.bashrc文件添加一句
conda config --set auto_activate_base false
至此,全文完毕。
本文参考了以下文章,特此感谢
1)How to Install NVIDIA drivers on Ubuntu 20.04 LTS (Focal Fossa) | CyberITHub