Was sind derzeit die beliebtesten Gemini-Innovationen?

Lesen Sie es mir nach, [dʒemɪnaɪ], nicht den Jimny von Suzuki Motors

      Der Bildschirm ist den ganzen Morgen überflutet, und Gemini kontert mit überwältigender Mehrheit. Die bisher veröffentlichten Demo- und Testergebnisse scheinen ein sehr führendes Modell zu sein. Die Erkennung von Videos ist mit GPT4v aufgrund seines multimodalen Encoders derzeit nicht möglich. Und Decoder unterstützt derzeit kein Video

     Gleichzeitig haben die Kontroversen auch einige Fragen aufkommen lassen, beispielsweise warum Gemini Ultra GPT4 schlägt, wenn „few_shot COT@32“ in MMLU vorliegt, aber nicht so gut wie GPT4, wenn „few_shot COT@5“ ist

Bild

      Was mich persönlich am meisten beschäftigt, ist, ob es einen Durchbruch bei der technischen Umsetzung von Gemini im Vergleich zum aktuellen Casual-Decoder Transformer gibt

      Da das Ding relativ neu ist und noch kein Papier veröffentlicht wurde (da GPT-4 noch nicht angekündigt wurde, wird es schätzungsweise später für jeden schwierig sein, den Kerninhalt einiger kommerzieller Produkte zu erkennen), habe ich einige zusammengefasst Erwähnenswerte Punkte. :

1- Echte Multimodalität: Fügen Sie dem Codec Videofunktionen hinzu. Derzeit habe ich die Dekodierung noch nicht gesehen. Wenn das Video nicht generiert werden kann, fehlt streng genommen immer noch ein Puzzleteil, aber auf jeden Fall ist dies der Fall Eine große Verbesserung. Dies entspricht der Zusammenfassung mehrerer Ausdrucksmethoden der menschlichen Welt. Derzeit kann Claude2 nur Text schreiben. GPT-4V und GPT-4 sind ausschließlich zwei Modelle und unterstützen kein Video.

2- Encoder-Decoder-Modus: Ich weiß nicht, ob es daran liegt, dass sie es unbedingt T5 und den Brüdern beweisen wollen, oder weil die Spitzenleute eine ungeklärte Fähigkeit des Encoder-Decoder-Modus entdeckt haben. Aus einigen Gerüchten habe ich gehört dass Gemini es nicht hat. Es übernimmt die branchenweit beliebteste und leistungsstärkste Casual-Decoder-Architektur, übernimmt aber das am meisten kritisierte traditionelle Transformer-Modell, das mit T5 identisch ist, mit Encoder-Decoder ohne Full-Rank. Darüber hinaus ist das Zuvor veröffentlichte Dall-E3-Artikel und stellte fest, dass T5 auch für die Multimodalität verwendet wird. Dieser Bereich gehört zu der Kategorie, die mir große Sorgen bereitet. Ich hoffe, dass in Zukunft weitere Informationen veröffentlicht werden können.

3- Modellmaßstab: Nach aktuellen Informationen ist Gemini etwa fünfmal größer als GPT4 (da es sich um einen Encoder handelt).

Supongo que te gusta

Origin blog.csdn.net/kingsoftcloud/article/details/134863123
Recomendado
Clasificación