Spielen Sie Llama2 schnell! Alibaba Cloud Machine Learning PAI führt Best Practices ein (3) – Schnelle Bereitstellung von WebUI

In dieser Übung wird das PAI-EAS-Modul der Alibaba Cloud- Plattform für maschinelles Lernen zur Bereitstellung für Llama-2-13B-Chat verwendet. PAI-EAS ist eine Online-Modelldienstplattform, die die Bereitstellung von Modellen als Online-Inferenzdienste oder KI-Webanwendungen mit einem Klick unterstützt. Sie verfügt über die Eigenschaften einer elastischen Skalierung und eignet sich für Entwickler, die kostengünstige Modelldienste benötigen.

Vorwort

Kürzlich gab Meta bekannt, dass das große Sprachmodell Llama2 Open Source ist und verschiedene Größen von 7B, 13B und 70B umfasst, was 7 Milliarden, 13 Milliarden und 70 Milliarden Parametern entspricht, und jede Spezifikation über ein optimiertes Modell Llama-2-Chat verfügt . Llama2 ist für Forschungsszenarien und kommerzielle Zwecke kostenlos (Unternehmen mit mehr als 700 Millionen aktiven Nutzern pro Monat müssen sich jedoch bewerben) und bietet Unternehmen und Entwicklern das neueste Tool für groß angelegte Modellforschung.

Derzeit übertrifft Llama-2-Chat andere Open-Source-Dialogmodelle bei den meisten Bewertungsindikatoren und liegt nicht weit hinter einigen beliebten Closed-Source-Modellen (ChatGPT, PaLM). Die maschinelle Lernplattform PAI von Alibaba Cloud passt zunächst die Modelle der Llama2-Serie an und führt Best Practices in Szenarien wie vollständige Feinabstimmung, Lora-Feinabstimmung und Inferenzdienste ein , um KI-Entwicklern beim schnellen Auspacken zu helfen. Nachfolgend zeigen wir jeweils die konkreten Nutzungsschritte auf.

[Frühere Best Practices]: Spielen Sie Llama2 schnell! PAI führt Best Practices ein (1) – Low-Code-Lora-Feinabstimmung und -Bereitstellung

Spielen Sie Llama2 schnell! PAI führt Best Practice (2) ein – ein umfassendes Parameter-Feinabstimmungstraining

Best Practice 3: Schnelle Bereitstellung von WebUI durch Llama2

1. Dienstbereitstellung

1. Rufen Sie die Online-Serviceseite des PAI-EAS-Modells auf.

1. Melden Sie sich bei der PAI-Konsole an: https://pai.console.aliyun.com/
2. Klicken Sie in der linken Navigationsleiste auf die Arbeitsbereichsliste und dann auf der Arbeitsbereichslistenseite auf den Namen des zu bedienenden Arbeitsbereichs, um den entsprechenden Arbeitsbereich aufzurufen.
3. Wählen Sie in der linken Navigationsleiste der Arbeitsbereichsseite Modellbereitstellung > Modell-Onlinedienst (EAS) aus, um die Seite „PAI EAS-Modell-Onlinedienst“ aufzurufen .

2. Klicken Sie auf der Seite des PAI EAS-Modell-Onlinediensts auf Bereitstellungsdienst.

3. Konfigurieren Sie auf der Seite „Bereitstellungsdienst“ die folgenden Schlüsselparameter.

Parameter	beschreiben
Dienstname	Passen Sie den Dienstnamen an. Der in diesem Fall verwendete Beispielwert ist: chatllm_llama2_13b .
Bereitstellungsmethode	Wählen Sie das Bild aus, um die AI-Web-Anwendung bereitzustellen .
Spiegelauswahl	Wählen Sie chat-llm-webui in der Bildliste der PAI-Plattform aus und wählen Sie 1.0 als Bildversion aus . Aufgrund der schnellen Iteration der Versionen kann bei der Bereitstellung die höchste Version der Image-Version ausgewählt werden.
Führen Sie den Befehl aus	Befehl zum Ausführen des Dienstes: – Bei Verwendung des 13b-Modells für die Bereitstellung: python webui/webui_server.py --listen --port=8000 --model-path=meta-llama/Llama-2-13b-chat-hf --precision= fp16 – Bei Verwendung des 7b-Modells für die Bereitstellung: python webui/webui_server.py --listen --port=8000 --model-path=meta-llama/Llama-2-7b-chat-hf Portnummereingabe: 8000
Ressourcengruppentyp	Wählen Sie eine öffentliche Ressourcengruppe aus
Methode zur Ressourcenzuweisung	Wählen Sie Allgemeine Ressourcenkonfiguration .
Auswahl der Ressourcenkonfiguration	Der GPU- Typ muss ausgewählt werden . Als Instanzspezifikation wird die Verwendung von ecs.gn6e-c12g1.3xlarge empfohlen . Das 13b-Modell muss auf GN6E- und höheren Modellen laufen. Das 7b-Modell kann auf dem A10/GU30-Modell betrieben werden.
zusätzliche Systemfestplatte	Wählen Sie 50 GB

4. Klicken Sie auf „Bereitstellen“ und warten Sie eine Weile, bis die Modellbereitstellung abgeschlossen ist.

2. Starten Sie die WebUI für die Modellinferenz

1. Klicken Sie in der Spalte „Dienstmodus“ des Zieldienstes auf „Webanwendung anzeigen“.

2. Führen Sie auf der WebUI-Seite eine Überprüfung der Modellbegründung durch.

Geben Sie den Gesprächsinhalt in die Eingabeoberfläche am unteren Rand des Dialogfelds ein, z. B. „Bitte stellen Sie einen Lernplan für das Finanzmanagement bereit“ und klicken Sie auf „Senden“, um das Gespräch zu starten.

Was ist mehr

Dieser Artikel demonstriert hauptsächlich die Praxis der schnellen Feinabstimmung und Bereitstellung von Llama2 basierend auf der Alibaba Cloud-Plattform für maschinelles Lernen PAI, hauptsächlich für die Größen 7B und 13B. In Zukunft werden wir zeigen, wie man die 70B-Größe Llama-2-70B auf Basis von PAI verfeinert und einsetzt, also bleiben Sie dran.
Im obigen Experiment unterstützt [Best Practice 3: Llama2 Rapid Deployment WebUI] kostenlose Testmodelle. Klicken Sie bitte auf [Originaltext lesen], um zum Alibaba Cloud User Center zu gelangen, um eine kostenlose Testversion von „PAI-EAS“ zu erhalten, und gehen Sie dann zur PAI-Konsole, um es zu erleben.

[Erhalten Sie eine kostenlose Testversion von PAI für maschinelles Lernen]

[Frühere Best Practices]: Spielen Sie Llama2 schnell! PAI führt Best Practices ein (1) – Low-Code-Lora-Feinabstimmung und -Bereitstellung

Spielen Sie Llama2 schnell! PAI führt Best Practice (2) ein – ein umfassendes Parameter-Feinabstimmungstraining

Verweise:

Llama2: Im Modell https://ai.meta.com/llama/#inside-the-model
Llama 2 Community-Lizenzvereinbarung https://ai.meta.com/resources/models-and-libraries/llama-downloads/
HuggingFace Open LLM Leaderboard https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
Alibaba Cloud Machine Learning-Plattform PAI: https://www.aliyun.com/product/bigdata/learn

Ich möchte Sie daran erinnern, dass es sich bei Llama2 um ein eingeschränktes Open-Source-Modell handelt, das von ausländischen Unternehmen entwickelt wurde. Bitte lesen Sie die Lizenzvereinbarung von Llama2 sorgfältig durch und halten Sie sich an diese, bevor Sie es verwenden, insbesondere an die restriktiven Lizenzbedingungen (z. B. Unternehmen mit mehr als 700 Millionen monatlichen Einnahmen). aktive Benutzer müssen zusätzliche Lizenzen beantragen) und Haftungsausschlüsse usw.

Darüber hinaus erinnere ich Sie daran, die Gesetze und Vorschriften des jeweiligen Landes einzuhalten. Wenn Sie Llama2 nutzen, um Dienstleistungen für die Öffentlichkeit in China bereitzustellen, halten Sie sich bitte an die Gesetze und Vorschriften des Landes, insbesondere, um sich nicht an Verhaltensweisen zu beteiligen oder diese zu erzeugen und Inhalte, die die Rechte und Interessen des Landes, der Gesellschaft und anderer gefährden.