問題の説明
Linux サーバーを使用して独自のモデルをトレーニングすると、次のエラーが表示される場合があります。
【エラー】RuntimeError: CUDA エラー: デバイスで実行できるカーネル イメージがありません
CUDA カーネル エラーは、他の API 呼び出しで非同期的に報告される可能性があるため、以下のスタック トレースは正しくない可能性があります。
デバッグの場合は、CUDA_LAUNCH_BLOCKING=1 を渡すことを検討してください。
Baidu、何千ものソリューションがありますが、それがあなたに適しているかどうかわかりませんか?
以下のチュートリアルに従うことができます〜
原因分析:
Linux サーバーでのトレーニング中にconda 環境をアクティブ化したかどうかを確認する
独自のモデルをトレーニングするたびに、アクティブ化しないと使用できないため、conda 環境を積極的にアクティブ化します~~~
しかし!! ! 特殊なケースもあります.たとえば、私が使用しているLinuxサーバーは、アクティベーションなしでPytorchを実行できます. 以下に示すように
これまでの運用の波のはずですが、Pytorchのバージョンがわからないという問題もあります~~~。!
解決:
インストールしたconda環境に合わせてアクティベート
私の場合、次のコマンドを使用してアクティブ化する必要があります
conda activate pytorch_3.8
もう一度実行して、トレーニングを正常に開始してください~~~
何?それでもうまくいかない場合は、Pytorch のバージョンがプロジェクトの要件を満たしているかどうかを確認できます. 満たしていれば、他の人のブログ ソリューションを見に行くことができます。
青い脂肪脂肪へようこそ、一緒にバグを解決しましょう~~~