十分なストレージがあることは明らかですが、CUDA メモリ不足エラーが報告されます。

yolov5 を実行しているときにこの問題が発生しました。バッチ サイズ = 1 を減らしても役に立ちませんし、ワーカー数を 1 に調整しても役に立ちません。データ セットは 50 枚の画像のみに減らされているため、実行できません。また、期限が切れています。複数のカードへのトレーニングの問題 (私のコンピュータにはグラフィック カードが 1 枚しかありません)。同じ構成の別のコンピュータが実行でき、昨日までは実行できていたのに、今日は突然実行できなくなります。エラーには、「64.00 MiB を割り当てようとしましたが、2Gib が空いています。ここには画像がありませんし、ストレージもありません。これは、まだ 2GB の空きビデオ メモリがあるのに、64MB をロードするときにエラーが報告されるということを意味します。ここでの空きビデオ メモリとは、pytorch が削除されたという事実を指し、予約されたビデオ メモリの空きメモリを指します。

解決プロセス:

最初はバックグラウンド プロセスがメモリを占有しているのではないかと思いましたが、タスク マネージャーと nvidia-smi の両方で問題がないことが示されました。

その後、CUDA か cudnn の問題だと思いました。CUDA をアンインストールして再インストールしても無駄でした。最初は CUDA のメモリ不足として報告され、その後パイプの破損として報告されました。

後で、これは tensorflow と pytorch の間の競合だと思いました。一部のデバッグはまだ役に立ちません。

解決:

結局、環境の問題だったことが分かりました 昨日の開発中に追加されたモジュールがわからず競合が発生したのが原因のはずです 環境をバックアップするのが習慣になっています 元の環境を入れておきましたanaconda 環境に戻って問題を削除した環境では、実行できます。

おすすめ

転載: blog.csdn.net/m0_50317149/article/details/132308495