Das Zhiyuan Research Institute veröffentlicht Emu2 – ein generatives multimodales Open-Source-Modell

Am 21. Dezember 2023 veröffentlichte das Zhiyuan Research Institute das multimodale Basismodell Emu2 der neuen Generation als Open Source.

Berichten zufolge ist Emu2 derzeit das größte generative multimodale Open-Source-Modell. Die auf Emu2-Feinabstimmung basierenden Modelle Emu2-Chat und Emu2-Gen sind jeweils das leistungsstärkste visuelle Verständnismodell und das umfassendste visuelle Generierungsmodell, das derzeit Open Source ist . Emu2-Chat kann Grafik- und Textanweisungen genau verstehen, um eine bessere Informationswahrnehmung, ein besseres Absichtsverständnis und eine bessere Entscheidungsplanung zu erreichen. Emu2-Gen akzeptiert Bilder, Text und verschachtelte Positionssequenzen als Eingabe, um eine flexible, kontrollierbare und qualitativ hochwertige Bild- und Videogenerierung zu erreichen.

Durch groß angelegtes autoregressives generatives multimodales Vortraining werden Durchbrüche bei multimodalen Kontextlernfähigkeiten erheblich gefördert. Emu2 hat gängige multimodale vorab trainierte große Modelle wie Flamingo-80B und IDEFICS-80B bei der Aufgabe des multimodalen Verständnisses bei geringer Stichprobe deutlich übertroffen und hat bei vielen Verständnisaufgaben bei geringer Stichprobe gute Ergebnisse erzielt, darunter VQAv2, OKVQA, MSVD, MM-Vet und TouchStone. , visuelle Beantwortung von Fragen, agentengesteuerte Bildgenerierung und andere Aufgaben, um eine optimale Leistung zu erzielen.

Das Modell und der Code von Emu2 sind Open Source und es werden Demotests bereitgestellt. Weitere technische Details finden Sie im Emu2-Papier.

Supongo que te gusta

Origin www.oschina.net/news/272108
Recomendado
Clasificación