[AMD GPU] A 카드를 이용한 AI 모델 학습

불만을 제기

rocm은 버전이 너무 많이 업데이트되었는데 왜 Windows 버전이
없습니까~~####RX580 사용자
는 rocm4.0 버전 이후에 RX580을 지원하지 않습니다, 쓰레기 AMD

사용된 장치 구성

리눅스:Ubuntu20.04.1
CPU:R9-5900hx
GPU:RX6800M 12G
파이썬:3.10.6

GPU 드라이버 설치

gpu 드라이버를 성공적으로 설치했다면 건너뛸 수 있으며, 이전에 다른 버전을 설치했는데 드라이버가 성공적이지 않았다면
터미널에서
sudo amdgpu-install --uninstall제거 드라이버 를 입력하십시오.

amd 공식 웹사이트 를 방문 하여 amdgpu-install_xxxxxx.xxxxxx_all.deb를 다운로드하십시오 .

설치 패키지가 있는 디렉토리
를 입력한 다음 터미널에 입력하십시오. sudo apt install ./amdgpu-install_xxxxxxx-xxxxxx_all.deb(참고: amdgpu-install_xxxxxxx-xxxxxx_all.deb는 다운로드한 amdgpu 버전을 나타냅니다.

그럼 sudo apt update다시sudo apt upgrade -y

드라이버 설치 시작

sudo amdgpu-install --no-dkms
sudo apt install rocm-dev
//安装完后重启
sudo reboot

구성 환경

ls -l /dev/dri/render*
sudo usermod -a -G render $LOGNAME
sudo usermod -a -G video $LOGNAME
sudo reboot

테스트

# 显示gpu性能监控
rocm-smi
#查看显卡信息的两条命令(直接在终端输入)
/opt/rocm/bin/rocminfo
/opt/rocm/opencl/bin/clinfo
#有一条报错可能是没安装好

경로 추가

echo '내보내기 경로=$PATH:/opt/rocm/bin:/opt/rocm/profiler/bin:/opt/rocm/opencl/bin/x86_64' | sudo 티 -a /etc/profile.d/rocm.sh

MIopen 설치

#安装hip
sudo apt-get install miopen-hip
#下载miopenkernels,适用与gfx1030的a卡,如果你不是可以试一下
链接:https://www.123pan.com/s/xW39-oyMmH
sudo dpkg -i miopenkernels-gfx1030-36kdb_1.1.0.50200-65_amd64.deb

RDNA2 아키텍처 설치 pytorch

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/rocm5.1.1

RX580(gfx803) 사용자는 이것을 설치합니다.

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/rocm3.7

stable-diffusion-webui 실행

sudo apt install git
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
#一般会提示pip版本太低,更新一下
python -m pip install --upgrade pip wheel
pip install -r requirements.txt' -i https://pypi.tuna.tsinghua.edu.cn/simple
HSA_OVERRIDE_GFX_VERSION=10.3.0 python launch.py --precision full --no-half
#HSA_OVERRIDE_GFX_VERSION可以模拟版本可以填9.0.0或者8.0.3(没试过)
//一般来讲会提示没有模型,如果有扔./models/Stable-diffusion里,本文不提供,自行百度

프롬프트 cuda 오류, 해결 방법

토치는 GPU를 사용할 수 없습니다

#打开launch.py找到这句代码
commandline_args = os.environ.get('COMMANDLINE_ARGS', "")
#改成
commandline_args = os.environ.get('COMMANDLINE_ARGS', "--skip-torch-cuda-test")

문제 해결

rocm-gdb는 libpython3.8을 사용하여 해결합니다.

소프트웨어 및 업데이트에 - 기타 소프트웨어 - 다음 소프트웨어 소스 추가

deb https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy main

소프트웨어 소스 업데이트

sudo apt upgrade
sudo apt update

libpython3.8을 설치하고 amdgpu-install을 다시 실행하십시오.

sudo apt install libpython3.8
sudo apt install rocm-dev

rocm-llvm은 파이썬에 의존하지만 설치할 수 없습니다

작동할 디렉토리 찾기

apt download rocm-llvm
ar x rocm-llvm_xxxx.xxxxx_amd64.deb
tar xf control.tar.xz
#编辑文件,如果没有vim将先安装sudo apt install vim
vim control
#找到如下一行:
Depends: python, libc6, libstdc++6|libstdc++8, libstdc++-5-dev|libstdc++-7-dev, libgcc-5-dev|libgcc-7-dev, rocm-core
#改为如下内容:
Depends: python3, libc6, libstdc++6|libstdc++8, libstdc++-5-dev|libstdc++-7-dev|libstdc++-10-dev, libgcc-5-dev|libgcc-7-dev|libgcc-10-dev, rocm-core
#重新打包
tar c postinst prerm control | xz -c > control.tar.xz
ar rcs rocm-llvm.deb debian-binary control.tar.xz data.tar.xz
#安装前先安装依赖
sudo apt install libstdc++-10-dev libgcc-10-dev rocm-core
#安装
sudo dpkg -i rocm-llvm.deb
#重新安装驱动
sudo amdgpu-install --no-dkms

구문 오류/launch.py를 실행할 때 Python 버전 버전 전환

대부분의 우분투 기본 파이썬은 해당하지 않습니다

#先查看本地安装了多少个python
ls /usr/bin/python*
#正常来讲会出现一下内容
#/usr/bin/python      /usr/bin/python3.10-config  /usr/bin/python3-futurize
#/usr/bin/python3     /usr/bin/python3.8          /usr/bin/python3-pasteurize
#/usr/bin/python3.10  /usr/bin/python3-config 
#我们要用的是python3.10的,所以
sudo rm /usr/bin/python  #删除原来的链接
sudo ln -s /usr/bin/python3.10 /usr/bin/python    #创建新的链接
python --version    #测试

체크 포인트 없이는 실행할 수 없습니다. .ckpt 파일을 찾아 해당 위치에 배치합니다. 프로그램이 종료됩니다.

모델이 없습니다. 모델을 /models/Stable-diffusion(cpkt 파일)에 넣습니다.

드라이버 설치 후 검은 화면 다시 시작

시작할 때 두 번째 항목(복구 모드)을 선택한 다음 첫 번째 항목을 선택하여 시스템에 계속 진입하고 진입 후 드라이버를 제거합니다.

실행 후 플러그인 다운로드 시간이 초과되었습니다.

플러그인 다운로드 속도는 github 접속이 원활하냐에 따라 달라지는데, 막히면 launch.py ​​를 수정하세요
.

gfpgan_package = os.environ.get('GFPGAN_PACKAGE', "git+https://github.com/TencentARC/GFPGAN.git@8d2447a2d918f8eba5a4a01463fd48e45126a379")
修改成
gfpgan_package = os.environ.get('GFPGAN_PACKAGE', "git+ https://ghproxy.com/https://github.com/TencentARC/GFPGAN.git@8d2447a2d918f8eba5a4a01463fd48e45126a379")

GPU 감시(GPU가 작동하지 않음을 나타냄)

루트 환경에서 webui 실행(시도하지 않음)

su
#输入密码,如果没设置就用sudo passwd root设置密码
HSA_OVERRIDE_GFX_VERSION=10.3.0 python launch.py --precision full --no-half
#HSA_OVERRIDE_GFX_VERSION可以模拟版本可以填9.0.0或者8.0.3(没试过)

재미

webui 디렉토리를 입력하고 다음 작업을 수행합니다.

HSA_OVERRIDE_GFX_VERSION=10.3.0 python launch.py --precision full --no-half

실행할 때 힙 오류가 있는 경우 gfx1030 또는 다른 버전 번호를 찾을 수 없으면 무시할 수 있습니다. 잠시만 기다리면 다음 세대에 대한 메시지가 표시되지 않습니다(이는 시작할 때마다 발생합니다. 첫 실행)

그래픽 카드 모니터링(옵션)

sudo apt install radeontop
radeontop

Supongo que te gusta

Origin blog.csdn.net/qq_44948500/article/details/127346390
Recomendado
Clasificación