Praktischer Code für die Bewertung der Inferenzgeschwindigkeit großer Modelle

  Hallo zusammen, ich bin herosunly. Er schloss sein Masterstudium an der 985 University ab und arbeitet jetzt als Algorithmenforscher. Er interessiert sich für die Erforschung und Anwendung von Algorithmen für maschinelles Lernen. Er gewann den ersten Platz beim Alibaba Cloud Tianchi-Wettbewerb, den zweiten Platz beim CCF-Wettbewerb und den dritten Platz beim iFlytek-Wettbewerb. Besitzen Sie mehrere Erfindungspatente. Erhalten Sie einzigartige Einblicke in maschinelles Lernen und Deep Learning. Ich habe mehreren Nicht-Computer-Hauptstudenten Nachhilfe gegeben, um eine Anstellung in der Algorithmenbranche zu finden. Ich hoffe, mit euch allen zu wachsen und Fortschritte zu machen.

  Der Artikel, den ich Ihnen heute vorstelle, ist der eigentliche Code für die Bewertung der Inferenzgeschwindigkeit großer Modelle. Ich hoffe, dass er für Schüler hilfreich sein wird, die große Modelle lernen.

Artikelverzeichnis

1. Einleitung

  Kürzlich stellten einige Studenten eine neue Frage: Die Einheit der Inferenzgeschwindigkeit großer Modelle ist Token/s. Wie erhält man also die spezifische Geschwindigkeit, die verschiedenen Modellen entspricht? Wie lässt sich außerdem die Geschwindigkeit verschiedener großer Modelle auf verschiedenen GPUs bewerten?
Fügen Sie hier eine Bildbeschreibung ein

2. Praktischer Code

  Es ist zu beachten, dass dieser Artikel in der Umgebung Linux+CUDA 12.2+Python 3.10+Transformers 4.36.2 erfolgreich reproduziert wurde. Es wird empfohlen, Ihren GPU-Treiber, CUDA und CuDNN auf die neueste CUDA-Version 12.2 zu aktualisieren.

  Hier nehmen wir Qwen-14B-Chat als Beispiel. Für andere Modelle ändern Sie bitte den Pfad selbst:

 

おすすめ

転載: blog.csdn.net/herosunly/article/details/135414984