一般的なコマンド:watch -n 1 nvidia-smi GPUをリアルタイムで表示
1 NVIDIA-SMIの概要
nvidia-smi(略してNVSMI)は、GPUの使用状況を監視し、GPUステータスを変更する機能を提供します。これは、Windows Server 2008 R2以降のすべての標準NVIDIAドライバーと64ビットシステムでサポートされるLinuxディストリビューションをサポートするクロスプラットフォームツールです。このツールはNカードドライバーに含まれており、ドライバーがインストールされていれば使用できます。
Windowsでのプログラムの場所:C:\ Program Files \ NVIDIA Corporation \ NVSMI \ nvidia-smi.exe。Linuxでのプログラムの場所:/ usr / bin / nvidia-smi。場所がPATHパスに追加されているため、nvidia-smiを直接入力して実行できます。
2 NVIDIA-SMIコマンドシリーズの詳細な説明
2.1 nvidia-smi
すべてのGPUの現在の情報ステータスを表示する
表示されたテーブルで:
ファン:ファン速度(0%-100%)、N / Aはファンなしを意味します
温度:GPU温度(GPU温度が高すぎるとGPU周波数が低下します)
パフォーマンス:P0(最大パフォーマンス)からP12(最小パフォーマンス)までのパフォーマンスステータス
Pwr:GPU消費電力
永続性M:永続モードの状態(永続モードは多くのエネルギーを消費しますが、新しいGPUアプリケーションを開始するのにかかる時間が短くなります)
Bus-Id:GPUバス、ドメイン:バス:device.function
Disp.A:GPUディスプレイが初期化されているかどうかを示すDisplay Active
メモリ使用量:メモリ使用量
揮発性GPU-Util:GPUの使用
ECC:エラーチェックおよび訂正技術を有効にするかどうか、0 /無効、1 / /有効
Mを計算する:計算モード、0 / DEFAULT、1 / / EXCLUSIVE_PROCESS、2 / / PROHIBITED
追加オプション:
nvidia-smi –i xxx
GPUを指定する
nvidia-smi –l xxx
動的更新情報(デフォルトは5秒ごとに更新)、Ctrl + Cを押して停止します。更新頻度を秒単位で指定できます
nvidia-smi –f xxx
クエリ情報をターミナルに表示せずに特定のファイルに出力します
2.2 nvidia-smi -q
すべてのGPUの現在の詳細情報をクエリする
追加オプション:
nvidia-smi –q –u
GPUプロパティではなくユニットを表示する
nvidia-smi –q –i xxx
特定のGPUまたはユニット情報を指定する
nvidia-smi –q –f xxx
クエリ情報をターミナルに表示せずに特定のファイルに出力します
nvidia-smi –q –x
クエリ情報をxmlとして出力します
nvidia-smi -q -d xxx
GPUカードの特定の情報を表示することを指定します。xxxパラメータには、MEMORY、UTILIZATION、ECC、TEMPERATURE、POWER、CLOCK、COMPUTE、PIDS、PERFORMANCE、SUPPORTED_CLOCKS、PAGE_RETIREMENT、ACCOUNTINGを指定できます
nvidia-smi –q –l xxx
動的更新情報。Ctrl+ Cを押して停止します。更新頻度を秒単位で指定できます
nvidia-smi --query-gpu = gpu_name、gpu_bus_id、vbios_version--format = csv
選択クエリオプション、表示された属性オプションを指定できます
表示できるプロパティは、timestamp、driver_version、pci.bus、pcie.link.width.currentなどです。(nvidia-smi--help-query--gpuをチェックして、属性を確認できます)
2.3デバイス変更オプション
GPUカードデバイスのステータスオプションを手動で設定できます
nvidia-smi –pm 0/1
永続モードを設定:0 /無効、1 /有効
nvidia-smi –e 0/1
スイッチECCサポート:0 /無効、1 / /有効
nvidia-smi –p 0/1
ECCエラーカウントのリセット:0 / VOLATILE、1 / AGGREGATE
nvidia-smi –c
計算アプリケーションモードを設定:0 / DEFAULT、1 / / EXCLUSIVE_PROCESS、2 / PROHIBITED
nvidia-smi –r
GPUリセット
nvidia-smi –vm
GPU仮想化モードを設定する
nvidia-smi –ac xxx、xxx
GPUの動作周波数を設定します。例:nvidia-smi --ac2000,800
nvidia-smi –rac
クロック周波数をデフォルトにリセット
nvidia-smi –acp 0/1
-acと-racを切り替えるための権限要件、0 / UNRESTRICTED、1 / / RESTRICTED
nvidia-smi -pl
最大電力管理制限(ワット)を指定する
nvidia-smi –am 0/1
カウントモードを有効または無効にする、0 /無効、1 / /有効
nvidia-smi-caa
バッファ内のすべての記録されたPIDをクリア、0 /無効、1 / /有効
2.4 nvidia-smi dmon
デバイス監視コマンドは、GPUデバイスの統計をスクロールバーの形式で表示します。
GPU統計は1行のスクロール形式で表示され、監視するインジケーターは端末ウィンドウの幅に基づいて調整できます。最大4つのGPUを監視します。GPUが指定されていない場合は、デフォルトでGPU0〜GPU3を監視します(GPUインデックスは0から始まります)。
追加オプション:
nvidia-smi dmon –i xxx
GPUインデックス、PCIバスID、またはUUIDをコンマで区切ってください
nvidia-smi dmon –d xxx
更新時間を指定します(デフォルトは1秒です)
nvidia-smi dmon –c xxx
指定した数の統計を表示して終了します
nvidia-smi dmon –s xxx
表示する監視インジケーターを指定します(デフォルトはpuc)。ここで、
p:電力使用量と温度(pwr:消費電力、temp:温度)
u:GPUの使用(sm:ストリームプロセッサ、mem:ビデオメモリ、enc:エンコードリソース、dec:デコードリソース)
c:GPUプロセッサおよびGPUメモリクロック周波数(mclk:ビデオメモリ周波数、pclk:プロセッサ周波数)
v:異常な電力と熱
m:FBメモリとBar1メモリ
e:ECCエラーとPCIe再表示エラーの数
t:PCIe読み取りおよび書き込み帯域幅
nvidia-smi dmon –o D / T
表示される時刻形式を指定D:YYYYMMDD、THH:MM:SS
nvidia-smi dmon –f xxx
クエリ情報をターミナルに表示せずに特定のファイルに出力します
2.5 nvidia-smi pmon
GPUプロセスステータス情報をスクロールバーの形式で表示するプロセス監視コマンド。
GPUプロセスの統計は1行のスクロール形式で表示されますこのツールは、すべてのGPUプロセスの統計を一覧表示します。監視するインジケーターは、ターミナルウィンドウの幅に基づいて調整できます。最大4つのGPUを監視します。GPUが指定されていない場合は、デフォルトでGPU0〜GPU3を監視します(GPUインデックスは0から始まります)。
追加オプション:
nvidia-smi pmon –i xxx
GPUインデックス、PCIバスID、またはUUIDをコンマで区切ってください
nvidia-smi pmon –d xxx
更新時間を指定します(デフォルトは1秒、最大は10秒です)
nvidia-smi pmon –c xxx
指定した数の統計を表示して終了します
nvidia-smi pmon –s xxx
表示する監視インジケーターを指定します(デフォルトはu)。ここで、
u:GPUの使用
m:FBメモリ使用量
nvidia-smi pmon –o D / T
表示される時刻形式を指定D:YYYYMMDD、THH:MM:SS
nvidia-smi pmon –f xxx
クエリ情報をターミナルに表示せずに特定のファイルに出力します
2.6 nvidia-smi はステータスをリアルタイムで更新し、強調表示します
時計-n 1 -d nvidia-smi