Série de développement OpenAI (3) : Introduction à l'écologie des grands modèles d'OpenAI

insérer la description de l'image ici

Les produits grand modèle d'OpenAI ne constituent pas qu'un seul modèle, mais sont pris en charge par une série de modèles divers couvrant le texte, le code, les dialogues, les images, etc. avec différentes capacités et options de prix.

Site officiel d'OpenAI

1. Grand modèle de langage

Pour les grands modèles de langage, OpenAI fournit des modèles des séries GPT3, GPT-3.5 et GPT-4 pour comprendre et générer du langage naturel et du code.

image-20230712220011047

Lors de la formation de GPT3, OpenAI a également formé quatre modèles de base A, B, C et D. Leurs paramètres et leur complexité sont différents, et ils peuvent être utilisés dans différents scénarios. Les noms complets sont : ada, babbage, curie et davinci.

image-20230712221112544

ada : Capable d'effectuer des tâches très simples, généralement le modèle le plus rapide et le moins cher de la famille GPT-3. Prend en charge 2049 jetons

Babbage : Capable d'effectuer des tâches simples, très rapides et moins coûteuses. Prend en charge 2049 jetons.

curie : très puissant, plus rapide et moins cher que davinci. Prend en charge 2049 jetons.

davinci : Le modèle GPT-3 le plus puissant. Capable d'effectuer n'importe quelle tâche dont d'autres modèles sont capables, et généralement de meilleure qualité. Prend en charge 2049 jetons.

Ainsi, à en juger par l'introduction officielle, ces quatre modèles ne sont pas des modèles de réglage fin de GPT-3, mais quatre modèles formés indépendamment, et augmentent dans l'ordre en fonction de la taille et de la complexité des paramètres.

2. Image multimodale grand modèle

DALL·E est un système d'intelligence artificielle capable de créer des images et des œuvres d'art réalistes basées sur des descriptions en langage naturel. La possibilité de créer de nouvelles images avec des dimensions spécifiques, de modifier des images existantes ou de créer des variantes d'images fournies par l'utilisateur en fonction d'invites est actuellement prise en charge.

La dernière version est la suivante : le modèle DALL·E est le modèle DALL·E de deuxième génération, par rapport au modèle original, il peut générer des images plus réalistes et plus précises, et la résolution est 4 fois supérieure à celle du modèle original.

image-20230712221546679

La capacité de DALL E à comprendre les images vient du grand modèle de langage et applique cette capacité au champ visuel. La méthode de base est la suivante : traiter les images comme un langage, les convertir en jetons, puis les combiner avec des jetons de texte assemblés pour la formation.

3. Modèle de reconnaissance vocale

Whisper est un modèle général de reconnaissance vocale. Il est formé sur un ensemble de données audio vaste et diversifié et constitue un modèle multitâche capable d'effectuer une reconnaissance vocale multilingue, une traduction vocale et une identification de la langue.

La dernière version est le modèle Whisper v2-large, qui a été open source par OpenAI et peut être déployé localement ou appelé via l'API comme les autres grands modèles OpenAI.

image-20230712221949523

4. Modèle de vectorisation de texte

Les incorporations sont des représentations numériques de texte et peuvent être utilisées pour mesurer la corrélation entre deux morceaux de texte. En tant que modèle d'intégration de texte, sa capacité est de convertir du texte en vecteurs de mots et, grâce à des opérations telles que le calcul de la similarité des vecteurs de mots, il peut effectuer des tâches telles que la recommandation, la classification et la recherche sur le texte réel qu'il représente.

La dernière version est : text-embedding-ada-002

image-20230712222319097

Le processus général est essentiellement le suivant :

1

L'intégration mappera les mots, les phrases ou les structures linguistiques de niveau supérieur aux vecteurs dans l'espace de haut niveau, de sorte que les mots ou les phrases sémantiquement similaires soient plus proches dans l'espace vectoriel. La couche d'intégration du modèle GPT est en cours de formation . la formation , le réglage fin modifie souvent la couche Embedding.

5. Revoir le modèle

Le modèle de modération est conçu pour vérifier que le contenu est conforme aux politiques d'utilisation d'OpenAI. Ces modèles offrent des capacités de classification permettant de détecter les catégories de contenu suivantes : haine, haine/menaces, automutilation, contenu sexuel, contenu sexuel impliquant des mineurs, violence et violence/graphiques.

Politique d'utilisation de nAI. Ces modèles offrent des capacités de classification permettant de détecter les catégories de contenu suivantes : haine, haine/menaces, automutilation, contenu sexuel, contenu sexuel impliquant des mineurs, violence et violence/graphiques.

image-20230712224858818
Enfin, merci d’avoir lu cet article ! Si vous sentez que vous avez gagné quelque chose, n'oubliez pas d'aimer, de mettre en signet et de me suivre, c'est la motivation de ma création continue. Si vous avez des questions ou des suggestions, vous pouvez laisser un message dans la zone de commentaires, je ferai de mon mieux pour répondre et accepter vos commentaires. S'il y a un sujet particulier que vous aimeriez connaître, n'hésitez pas à me le faire savoir et je serai ravi d'écrire un article à ce sujet. Merci pour votre soutien et au plaisir de grandir avec vous !
Au plaisir de grandir avec vous dans de futures études.

Je suppose que tu aimes

Origine blog.csdn.net/Lvbaby_/article/details/131692248
conseillé
Classement