nvidia-smi 常用命令:
nvidia-smi dmon -s xxx
(device monitor) 查看设备的相关信息,下面是可选值
如 nvidia-smi dmon -s t -i 1 查看gpu卡1的pcie读写带宽
p:电源使用情况和温度(pwr:功耗,temp:温度)
u:GPU使用率(sm:流处理器,mem:显存,enc:编码资源,dec:解码资源)
c:GPU处理器和GPU内存时钟频率(mclk:显存频率,pclk:处理器频率)
v:电源和热力异常
m:FB内存和Bar1内存
e:ECC错误和PCIe重显错误个数
t:PCIe读写带宽
nvidia-smi dmon -i 0 -s mutc -d 1 -o TD
使用该命令可以直接查看gpu卡0当前运行相关的信息
#Date Time gpu fb bar1 sm mem enc dec rxpci txpci mclk pclk
#YYYYMMDD HH:MM:SS Idx MB MB % % % % MB/s MB/s MHz MHz
20221215 15:43:54 1 3217 13 10 15 100 30 15 14 6250 1455
20221215 15:43:55 1 3217 13 9 14 88 32 45 12 6250 1507
20221215 15:43:56 1 3217 13 9 13 80 30 23 9 6250 1260
20221215 15:43:57 1 3217 13 9 14 95 31 33 22 6250 1372
20221215 15:43:58 1 3217 13 10 15 100 30 44 25 6250 1440
20221215 15:43:59 1 3217 13 10 15 100 28 14 12 6250 1530
20221215 15:44:00 1 3217 13 10 15 100 30 39 15 6250 1297
nvidia-smi pmon -i 1
使用该命令可以查看gpu卡1当前运行程序占用情况
# gpu pid type sm mem enc dec command
# Idx # C/G % % % % name
1 3524892 C 8 13 95 29 Pangu
1 3524892 C 8 14 94 29 Pangu
1 3524892 C 8 14 95 30 Pangu
1 3524892 C 9 14 96 30 Pangu
1 3524892 C 8 14 96 30 Pangu
lspci -vv |grep xxx -C50
(xxx 为设备名,如A16) 或 nvidia-smi -q -i 1
查看pci的设备的相关信息,可以找到GPU的pci速率。
Timestamp : Thu Dec 15 15:51:49 2022
Driver Version : 515.43.04
CUDA Version : 11.7
Attached GPUs : 4
GPU 00000000:47:00.0
Product Name : NVIDIA A16
Product Brand : NVIDIA
Product Architecture : Ampere
Display Mode : Disabled
Display Active : Disabled
Persistence Mode : Enabled
MIG Mode
Current : N/A
Pending : N/A
Accounting Mode : Disabled
Accounting Mode Buffer Size : 4000
Driver Model
Current : N/A
Pending : N/A
Serial Number : xxxxxxxxxxxx
GPU UUID : xxxxxxxxxxxx
Minor Number : 1
VBIOS Version : 94.07.54.00.01
MultiGPU Board : Yes
Board ID : xxxxxxxxxxxxxxx
GPU Part Number : xxxxxxxxxxxxxxx
Module ID : 0
Inforom Version
Image Version : G171.0200.00.04
OEM Object : 2.0
ECC Object : 6.16
Power Management Object : N/A
GPU Operation Mode
Current : N/A
Pending : N/A
GSP Firmware Version : 515.43.04
GPU Virtualization Mode
Virtualization Mode : None
Host VGPU Mode : N/A
IBMNPU
Relaxed Ordering Mode : N/A
PCI
Bus : 0x47
Device : 0x00
Domain : 0x0000
Device Id : xxxxxxxxxxx
Bus Id : 00000000:47:00.0
Sub System Id : xxxxxxxxxxx
GPU Link Info
PCIe Generation
Max : 4
Current : 1
Link Width
Max : 16x
Current : 4x
Bridge Chip
Type : N/A
Firmware : N/A
Replays Since Reset : 0
Replay Number Rollovers : 0
Tx Throughput : 2000 KB/s
Rx Throughput : 6000 KB/s
Fan Speed : 0 %
Performance State : P8
问题分析举例
12路 cuda->nv12->nv12->cuda 编解码性能及pcie读写速度
#Date Time gpu fb bar1 sm mem enc dec rxpci txpci mclk pclk
#YYYYMMDD HH:MM:SS Idx MB MB % % % % MB/s MB/s MHz MHz
20221215 15:33:04 1 1149 7 22 6 31 11 566 635 6250 1755
20221215 15:33:05 1 1149 7 23 7 46 13 670 672 6250 1755
20221215 15:33:06 1 1149 7 22 6 35 11 619 738 6250 1755
20221215 15:33:07 1 1149 7 19 5 31 10 565 548 6250 1755
20221215 15:33:08 1 1149 7 20 6 36 11 485 641 6250 1755
20221215 15:33:09 1 1149 7 18 6 36 11 466 555 6250 1755
20221215 15:33:10 1 1149 7 20 5 31 10 481 595 6250 1755
20221215 15:33:12 1 1149 7 21 7 43 12 512 518 6250 1755
20221215 15:33:13 1 1149 7 18 6 32 10 564 593 6250 1755
20221215 15:33:14 1 1149 7 18 6 35 10 383 605 6250 1755
20221215 15:33:15 1 1149 7 21 6 39 11 497 601 6250 1755
20221215 15:33:16 1 1149 7 19 6 35 11 488 565 6250 1755
20221215 15:33:17 1 1149 7 20 6 36 11 504 539 6250 1755
20221215 15:33:18 1 1149 7 20 6 37 11 486 655 6250 1755
20221215 15:33:19 1 1149 7 19 6 36 10 643 703 6250 1755
20221215 15:33:20 1 1149 7 19 6 34 11 408 609 6250 1755
20221215 15:33:21 1 1149 7 21 6 36 11 356 580 6250 1755
20221215 15:33:22 1 1149 7 23 6 41 11 513 582 6250 1755
20221215 15:33:23 1 1149 7 21 6 36 11 691 654 6250 1755
30路cuda->cuda 编解码性能
#Date Time gpu fb bar1 sm mem enc dec rxpci txpci mclk pclk
#YYYYMMDD HH:MM:SS Idx MB MB % % % % MB/s MB/s MHz MHz
20221215 15:43:07 1 3203 13 9 14 100 30 47 8 6250 1260
20221215 15:43:08 1 3203 13 9 15 100 30 28 9 6250 1500
20221215 15:43:09 1 3203 13 9 15 100 30 27 13 6250 1567
20221215 15:43:10 1 3203 13 9 15 100 30 37 15 6250 1552
20221215 15:43:11 1 3203 13 10 15 100 30 19 20 6250 1710
20221215 15:43:13 1 3203 13 10 15 100 30 15 4 6250 1747
20221215 15:43:14 1 3205 13 10 15 100 30 62 12 6250 1102
20221215 15:43:15 1 3207 13 10 15 100 30 22 14 6250 1432
20221215 15:43:16 1 3209 13 8 13 88 31 39 6 6250 1590
20221215 15:43:17 1 3209 13 8 13 82 31 21 13 6250 1485
20221215 15:43:18 1 3215 13 8 13 87 31 42 16 6250 1372
20221215 15:43:19 1 3215 13 9 13 83 31 43 23 6250 1447
20221215 15:43:20 1 3215 13 10 15 100 30 16 12 6250 1590
20221215 15:43:21 1 3215 13 10 15 100 30 47 6 6250 1470
从12路时的 结果来看,无论是GPU显存,性能,还是编解码性能都未达到峰值,且之前怀疑的传输速率也仅为读:600MB/s 写:600MB/s , 而查看该卡的PCIE设置
LnkCap: Port #0, Speed 16GT/s, Width x16, ASPM not supported
ClockPM+ Surprise- LLActRep- BwNot- ASPMOptComp+
LnkCtl: ASPM Disabled; RCB 64 bytes, Disabled- CommClk+
ExtSynch- ClockPM+ AutWidDis- BWInt- AutBWInt-
LnkSta: Speed 16GT/s (ok), Width x4 (downgraded)
TrErr- Train- SlotClk+ DLActive- BWMgmt- ABWMgmt-
LnkCap为显卡配置,LnkSta为实际值,在有程序运行时Speed会从2.5GT/s (PCIE 1.0) 提升为 16GT/s (PCIE 4.0) ,而Width(lane) 虽然有降级,但是从表中可以得出依然有7.88GB/s的带宽。。。
可能影响性能的因素还有温度等,可是通过查看nvidia-smi -q -i 1
温度也没有达到使GPU降速的温度。。。
Temperature
GPU Current Temp : 87 C
GPU Shutdown Temp : 98 C
GPU Slowdown Temp : 95 C
GPU Max Operating Temp : 88 C