- Vorteile: DeepSpeed: Beschleunigung der groß angelegten Modellinferenz und des Trainings durch Systemoptimierungen und Komprimierung
- Ursprünglicher Autor: DeepSpeed Team Rangan Majumder, Vizepräsident Andrey Proskurin, Corporate Vice President of Engineering
- Übersetzung von: dl_system
- Permanenter Link zu diesem Artikel: DeepSpeed beschleunigt das Denken großer Modelle durch Systemoptimierung
- Übersetzer: harleyszhang, der Übersetzer hat den Originaltext gelöscht und optimiert.
1. Hintergrundwissen
1.1, Schwierigkeiten bei der LLM-Anwendung
1. Die Modelltrainingszeit ist zu lang
Mit der Einführung der Transformer-Struktur begannen die nachfolgenden LLM-Parameter von Milliarden auf mehrere zehn Milliarden oder sogar Billionen zu wachsen. Im Vergleich zum ultraschnellen Wachstum der Modellparameter ist das Wachstum des GPU-Speichers wirklich begrenzt. Einige Daten zeigen, dass sich alle 18 Monate nur um das 1,7-fache verdoppelt. Die Kluft zwischen dem Wachstum der Modellparameter und dem Wachstum des Hardwarespeichers wird immer größer, aber dem aktuellen Trend nach zu urteilen