MiniGPT-4, Open-Source!

Als GPT-4 letzten Monat veröffentlicht wurde, habe ich einen Artikel geschrieben, in dem einige Schlüsselinformationen über GPT-4 geteilt wurden.

Das damalige Teilen erwähnte ein wichtiges Merkmal von GPT-4, nämlich die multimodale Fähigkeit .

Geben Sie beispielsweise, wie auf der Pressekonferenz demonstriert, ein Bild ein (was passiert, wenn der Handschuh fällt?).

GPT-4 kann verstehen und ausgeben: Es fällt auf das Brett und der Ball wird abprallen.

Ein anderes Beispiel ist, GPT-4 ein Bild von einem seltsam aussehenden Ladegerät zu geben und zu fragen, warum das lächerlich ist?

GPT-4 antwortete, VGA-Kabel zum Aufladen des iPhone.

Benutzer können sogar direkt eine Website-Skizze zeichnen und ein Foto machen und es an GPT-4 werfen, was sofort beim Generieren von Code helfen kann.

Aber die Zeit ist so lange vergangen, und die Bilderkennungsfunktion von GPT-4 wurde lange nicht geöffnet.

Während alle darauf warteten, dass diese Funktion geöffnet wird, hat es ein Open-Source-Projekt namens MiniGPT-4 in aller Stille getan.

https://github.com/Vision-CAIR/MiniGPT-4

Das ist richtig, um das visuelle Sprachverständnis zu verbessern.

Das Team hinter MiniGPT-4 stammt von KAUST (King Abdullah University of Science and Technology, Saudi-Arabien), das von mehreren Ärzten entwickelt wurde.

Das Projekt ist nicht nur Open Source, sondern bietet auch eine Webversion der Demo, die Benutzer direkt erleben können.

MiniGPT-4 wird auch basierend auf einigen großen Open-Source-Modellen trainiert.

Das Team integrierte den Bildcodierer mit dem Open-Source-Sprachmodell Vicuna (kleines Alpaka) und fror die meisten Parameter der beiden ein, nur ein kleiner Teil des Trainings ist erforderlich.

Die Ausbildung gliedert sich in zwei Phasen.

In der traditionellen Vortrainingsphase werden 5 Millionen Bild-Text-Paare auf 4 A100 verwendet und kann innerhalb von 10 Stunden abgeschlossen werden.Zu diesem Zeitpunkt kann das trainierte Vicuna bereits Bilder verstehen, aber seine Generierungsfähigkeit ist begrenzt.

Verwenden Sie dann einige kleine hochwertige Datensätze für das Training in der zweiten Tuning-Stufe. Zu diesem Zeitpunkt ist die Berechnungseffizienz sehr hoch und es dauert nur 7 Minuten für eine einzelne Karte A100.

Und das Team bereitet eine leichtere Version vor, die nur 23 GB Videospeicher für die Bereitstellung benötigt, was bedeutet, dass in Zukunft möglicherweise lokales Training in einigen Grafikkarten für Verbraucher möglich ist.

Hier sind ein paar Beispiele für Sie.

Fügen Sie beispielsweise ein Foto von Lebensmitteln hinzu, um ein Rezept zu erhalten.

Oder geben Sie ein Foto eines Produkts, um beim Schreiben einer Kopie zu helfen.

Natürlich ist es auch möglich, eine Webseite zu zeichnen und sie zu bitten, beim Generieren von Code zu helfen, wie auf der vorherigen GPT-4-Konferenz gezeigt.

Man kann sagen, dass MiniGPT-4 im Wesentlichen die Funktionen hat, die auf der GPT-4-Konferenz gezeigt wurden.

Das kann man als sehr erstaunlich bezeichnen!

Möglicherweise wird es aufgrund der großen Anzahl von Personen, die es derzeit verwenden, eine Warteschlange geben, wenn Sie es in der MiniGPT-4-Webdemo ausprobieren, und Sie müssen in der Warteschlange warten.

Benutzer können Dienste jedoch auch selbst lokal bereitstellen, und der Prozess ist nicht kompliziert.

Die erste besteht darin, das Projekt herunterzuladen und die Umgebung vorzubereiten:

git clone https://github.com/Vision-CAIR/MiniGPT-4.git
cd MiniGPT-4
conda env create -f environment.yml
conda activate minigpt4

Laden Sie dann das vortrainierte Modell herunter:

Zum Schluss die Demo lokal starten:

python demo.py --cfg-path eval_configs/minigpt4_eval.yaml

Durch dieses Projekt haben wir einmal mehr die Machbarkeit von großen Modellen im visuellen Bereich gesehen, auch die zukünftigen Anwendungsaussichten in Bild, Audio, Video etc. sollten sehr gut sein und wir dürfen uns darauf freuen.

So, das war's für den heutigen Beitrag, danke fürs Zuschauen, bis zum nächsten Mal.

Hinweis: Dieser Artikel wurde in das GitHub Open Source Warehouse „Road to Programming“ https://github.com/rd2coding/Road2Coding aufgenommen, das die Selbstlernrouten der 6 großen Programmierrichtungen (Beiträge) + Wissenspunktesortierung enthält heraus und befrage Testpunkte, die ich zusammengestellt habe , meinen Lebenslauf, ein paar Hardcore-PDF-Notizen und das Leben und die Wahrnehmung von Programmierern, willkommen bei Star.

Supongo que te gusta

Origin blog.csdn.net/wangshuaiwsws95/article/details/130377786
Recomendado
Clasificación