DeepSpeed beschleunigt die Inferenz großer Modelle durch Systemoptimierung

1. Hintergrundwissen

1.1, Schwierigkeiten bei der LLM-Anwendung

1. Die Modelltrainingszeit ist zu lang

Mit der Einführung der Transformer-Struktur begannen die nachfolgenden LLM-Parameter von Milliarden auf mehrere zehn Milliarden oder sogar Billionen zu wachsen. Im Vergleich zum ultraschnellen Wachstum der Modellparameter ist das Wachstum des GPU-Speichers wirklich begrenzt. Einige Daten zeigen, dass sich alle 18 Monate nur um das 1,7-fache verdoppelt. Die Kluft zwischen dem Wachstum der Modellparameter und dem Wachstum des Hardwarespeichers wird immer größer, aber dem aktuellen Trend nach zu urteilen

Guess you like

Origin blog.csdn.net/qq_20986663/article/details/130695234