彻底清理CUDA安装(多版本一起清除)

文章目录

前言

最近这段时间实验室新进了一批A100的卡,需要在上面微调一个大模型。自己之前有一定的CUDA安装和卸载经验,在本地主机上装过11.7和12.1两个版本的,本来没觉得这会是一个非常困难的事情,按部就班的操作就可以。

如果希望安装CUDA,还是建议参考官方的说明文档 NVIDIA CUDA Installation Guide,这个后面有时间也许可以出一期(但是该装的都装了,如果后面需要再重装就记录一下orz),值得注意的是文档里有一个 post-installation,也就是安装后需要执行的操作,这一部分比较容易被忽略,因为它比较靠后,简单提醒大家一下~

探索过程

这部分是心路历程,不是教程 doge

话说回来。第一步检查是否有现存的CUDA版本。

$ nvcc --version

报错了,说没有安装nvcc,那很合理,应该是没装过。

第二步看看A100长啥样。

$ nvidia-smi

这一步能正常显示。我其实懂得不多,但我感觉有点怪。因为正常情况下nvcc好像是和nvidia-smi一起安装的(也可能是我孤陋寡闻,但我当时是这么想的);而且这里显示了一个CUDA版本是12.1,这就更奇怪了。(下图是重新安装后的正常情况,红圈处是有一个CUDA版本标识的;一般而言对于多个CUDA版本的情形,红圈处现实的版本和指定的路径有关)。

在这里插入图片描述
于是我准备去看看安装的情况。

$ ls /usr/local

一般CUDA版本安装后都会在这个位置有一系列文件夹,包括cudacuda-xcuda-x.y三个文件夹,x表示主版本,如10,11,12等等,y就是更细分的版本。

结果让我大吃一惊,这里放着的CUDA文件夹有一大堆,包括了上述提到的三个大版本和一系列小版本,几乎一个不落,我直接好家伙。

这种情况我是第一次遇到,跟学长请示后得到了可以直接全部删除的指令,于是我直接kuakuakua全删了,并松了一口气(但事实上只删除文件夹是远远不够的!!!!

结果在后面安装的时候遇到了一个非常绝望的错误:

E: Unmet dependencies. Try 'apt --fix-broken install' with no packages (or specify a solution).

apt 都寄了,我直接好家伙。它看似提出了一个解决方案,但是事实上这样运行没有解决我的问题:

$ apt --fix-broken install
...
...
E: Sub-process /usr/bin/dpkg returned an error code (1)

结果

于是我就开始四处搜索,并最终在 StackOverflow上找到了问题的解决办法。

  1. 删除 toolkit:
$ sudo apt-get --purge remove "*cublas*" "cuda*" "nsight*" 
  1. 删除NVIDIA drivers:
$ sudo apt-get --purge remove "*nvidia*"
  1. 删除文件夹(我只干了这个)
$ sudo rm -rf /usr/local/cuda*
  1. 如果遇到包损坏的问题,可以修改aptsources.list,注释掉NVIDIA网址
$ sudo vim /etc/apt/sources.list
#deb http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/ /

然后就可以重装了doge~

$ sudo apt-get update

最后如果这篇文章有帮到你的话希望多多点赞支持喔~有任何问题欢迎评论指正!

猜你喜欢

转载自blog.csdn.net/qq_53937391/article/details/131501801