GPU-Fehler-Interrupt-Handler (irq/82-nvidia)

irq/82-nvidia

Eine Interrupt-Anfrage (IRQ) ist ein Mechanismus zur Benachrichtigung der CPU, dass ein Ereignis verarbeitet werden muss, das von einem Hardwaregerät oder einem Softwareprogramm ausgegeben werden kann.

IRQ 82 ist der Interrupt-Handler des NVIDIA-Grafikkartengeräts. Diese Fehler-Interrupt-Signale weisen darauf hin, dass die GPU bei der Ausführung verwandter Aufgaben auf Probleme gestoßen ist und einen CPU-Eingriff oder eine Wiederherstellung erfordert.

Die spezifischen Funktionen des irq/82-nvidia-Prozesses sind:

- Empfangen Sie Interrupt-Signale von der GPU, z. B. Rendering abgeschlossen, Puffer voll, Auftreten eines Fehlers usw. ¹²
– Rufen Sie die im NVIDIA-Treiber registrierte Interrupt-Handler-Funktion auf, um entsprechende Vorgänge auszuführen, z. B. Statusaktualisierung, Pufferlöschung, Wiederherstellung nach Fehlern usw. ¹²
– Gibt die Kontrolle über die CPU zurück, um mit anderen Aufgaben fortzufahren.

Der Trigger-Timing des irq/82-nvidia-Prozesses ist:

– Wenn die GPU grafikbezogene Aufgaben ausführt und die CPU benachrichtigen muss, dass ein Ereignis verarbeitet werden muss, sendet sie ein Interrupt-Signal. ¹²
– Wenn die CPU dieses Interrupt-Signal empfängt, unterbricht sie die aktuelle Aufgabe, wechselt zum irq/82-nvidia-Prozess und lässt ihn dieses Ereignis verarbeiten. ¹²
– Wenn der irq/82-nvidia-Prozess mit der Verarbeitung dieses Ereignisses fertig ist, gibt er die Kontrolle über die CPU zurück und ermöglicht ihr, ihre vorherige Aufgabe fortzusetzen. ¹²

Welche Fehler werden behandelt?

  1. GPU-Timing-Interrupt – wird zur Synchronisierung von GPU-Rechenaufgaben mit einer hohen Triggerfrequenz verwendet
  2. ECC-Speicherfehler – entspricht dem vom ECC-Speicher erkannten Fehler
  3. PCIe-Busfehler – Fehler im Zusammenhang mit der PCIe-Kommunikation
  4. Zeitüberschreitung bei der GPU-Planung – Zeitüberschreitung bei der GPU-Aufgabenausführung
  5. Unterbrechung der Temperaturregelung – Alarmunterbrechung, wenn die Temperatur den Schwellenwert überschreitet
  6. Anormale Stromversorgung – Anormale GPU-Stromversorgungsparameter
  7. Speicherausnahme – GPU-Speicher-Lese- und Schreibausnahme
  8. MMU-Ausnahme – Ausnahme der GPU-Speicherverwaltungseinheit
  9. SM-Ausnahme – Stream-Prozessor-Ausnahme, z. B. Warp-Fehler
  10. Engine-Ausnahme – Ausnahme bei der Ausführung der Grafik-/Computer-Engine
  11. Video-Encoder-/Decoder-Fehler – Fehler bei der Videokodierung/-dekodierung
  12. Hotplug-Unterbrechung anzeigen – Zeigt Schnittstellen-Hotplug-Ereignisse an
  13. NVLink-Unterbrechung – Unterbrechung im Zusammenhang mit der NVLink-Kommunikation
  14. Debug-Interrupts – Interrupt-Ereignisse für das GPU-Debugging
  15. Globaler Interrupt – globaler GPU-Fehler-Interrupt
  16. Anmelde-/Abmelde-Interrupt – GPU-Kontextwechsel-Interrupt

Das Obige deckt die wichtigsten NVIDIA-GPU-Interruptquellen ab, und der IRQ/82-Thread muss diese Interrupts und Fehler verarbeiten, um den normalen Betrieb der GPU sicherzustellen.

Supongo que te gusta

Origin blog.csdn.net/u010087338/article/details/132514462
Recomendado
Clasificación