Simple et simple : une technologie essentielle dans un grand modèle de langage - Introduction à l'intégration

Aujourd'hui, SullyOmarr, un blogueur technologique sur Twitter, a partagé un contenu très populaire sur l'intégration. Il explique principalement pourquoi l'intégration est très importante dans le grand modèle d'IA actuel. C'est une très bonne introduction à l'intégration des connaissances. Cet article donnera également une brève introduction à l'intégration basée sur le contenu de SullyOmarr et expliquera pourquoi elle est très importante dans les grands modèles de langage. Cet article est issu du blog officiel de DataLearner : Technologies populaires dans le domaine des grands modèles d'IA - Introduction à l'intégration et pourquoi l'intégration est importante dans les grands modèles de langage | Site officiel des apprenants de données (Datalearner)

Introduction à la technologie des Embeddings et à son histoire
Quelle est la principale valeur de l'Embedding ?
La valeur de l'intégration dans les grands modèles
Comment faire en sorte que les grands modèles résolvent le problème de saisie de texte long (tel que PDF) basé sur l'intégration ?
Comment générer et stocker
le résumé d'intégration
insérez la description de l'image ici

Introduction à la technologie Embeddings et à son histoire
Dans l'apprentissage automatique et le traitement du langage naturel, l'intégration fait référence au processus de mappage de données de grande dimension (telles que du texte, des images, de l'audio) dans un espace de faible dimension. Un vecteur d'intégration est généralement un vecteur de nombres réels qui représente les données d'entrée sous forme de points dans un espace numérique continu.

En termes simples, l'intégration est un vecteur à valeurs réelles à N dimensions, qui peut être utilisé pour représenter presque n'importe quoi, comme du texte, de la musique, de la vidéo, etc. Ici, nous nous concentrons également principalement sur l'intégration de texte.
insérez la description de l'image ici

La raison pour laquelle l'intégration est importante est qu'elle peut représenter la sémantique de mots ou de phrases. Les intégrations de vecteurs à valeurs réelles peuvent représenter la sémantique des mots, principalement parce que ces vecteurs d'intégration sont appris en fonction des modèles d'occurrence des mots dans le contexte linguistique. Par exemple, si un mot apparaît fréquemment avec un autre mot dans un certain contexte, alors les vecteurs d'incorporation pour les deux mots auront des positions similaires dans l'espace vectoriel. Cela signifie qu'ils ont des significations et une sémantique similaires.

Le développement de la technologie d'intégration remonte aux recherches linguistiques des années 1950 et 1960, dont la plus célèbre est la théorie sémantique distributionnelle proposée par Harris en 1954. Cette théorie soutient que la sémantique des mots peut être représentée par leur distribution dans le contexte, c'est-à-dire que la signification d'un mot peut être déduite de ses mots environnants.

En informatique, les premières techniques d'intégration remontent à la recherche sur les réseaux de neurones dans les années 1980 et 1990. À cette époque, les gens ont commencé à essayer d'utiliser les réseaux de neurones pour apprendre la représentation intégrée des mots. Le plus célèbre d'entre eux est le modèle de langage neuronal (modèle de langage neuronal) proposé par Bengio en 2003, qui peut prédire le mot suivant en fonction du contexte du mot, et peut utiliser ce modèle pour générer la représentation intégrée du mot.

Depuis environ 2010, avec le développement de la technologie d'apprentissage en profondeur, la technologie d'intégration a été largement utilisée et étudiée. Au cours de cette période, certains algorithmes d'intégration importants sont apparus, tels que Word2Vec, GloVe et FastText, etc. Ces algorithmes peuvent apprendre des représentations intégrées de mots en formant des réseaux de neurones ou en utilisant des techniques telles que la factorisation matricielle. Ces algorithmes sont largement utilisés dans diverses tâches de traitement du langage naturel, telles que la classification de texte, la traduction automatique, l'analyse des sentiments, etc.

Ces dernières années, avec le développement rapide de la technologie d'apprentissage en profondeur et de traitement du langage naturel, la technologie d'intégration a été encore améliorée et développée. Par exemple, de grands modèles de langage tels que BERT, ELMo et GPT peuvent générer des intégrations contextuelles qui capturent mieux les informations sémantiques et contextuelles des mots.

Où est la principale valeur de l'intégration ?
Comme mentionné précédemment, les vecteurs d'intégration contiennent des informations sémantiques. C'est-à-dire que des mots ayant des significations similaires, les vecteurs d'intégration ont des positions similaires dans l'espace, mais, en plus, l'intégration présente également d'autres avantages.

Par exemple, un plongement représenté par un vecteur à valeurs réelles peut effectuer des opérations vectorielles. Par exemple, en effectuant des opérations d'addition et de soustraction de vecteurs sur des vecteurs incorporés, des relations sémantiques entre des mots peuvent être déduites. Par exemple, pour le "roi" et "l'homme" représentés par le vecteur plongeant, l'opération "reine = roi - homme + femme" peut être effectuée pour obtenir un vecteur représentant la "reine", qui est très proche de la réelle "reine " vecteur dans l'espace vectoriel .

De plus, les représentations vectorielles vectorielles à valeur réelle peuvent également être partagées et transférées entre plusieurs tâches de traitement du langage naturel. Par exemple, lors de la formation d'un modèle d'analyse des sentiments, on peut utiliser des vecteurs d'intégration formés dans des tâches de classification de phrases, qui ont appris les informations sémantiques et contextuelles des mots, ce qui peut améliorer la précision et la capacité de généralisation du modèle.

Pour résumer, l'incorporation de vecteurs à valeurs réelles peut représenter la sémantique des mots en apprenant la sémantique et les informations de contexte des mots à partir d'une grande quantité de données linguistiques, et peut effectuer des opérations vectorielles et partager et migrer dans différentes tâches de traitement du langage naturel.
insérez la description de l'image ici

La valeur de l'intégration dans le grand modèle
Ce que j'ai dit plus haut est en fait la valeur de l'intégration avant. Cependant, à l'ère des grands modèles de langage, après que des modèles tels que ChatGPT soient devenus populaires, tout le monde a trouvé que l'intégration avait une nouvelle valeur, c'est-à-dire résoudre les limitations d'entrée des grands modèles.

Auparavant, OpenAI a officiellement publié un cas sur la façon d'utiliser l'intégration pour résoudre le problème de la saisie de texte long. Notre blog officiel DataLearner a également présenté ce didacticiel : Tutoriel officiel OpenAI : Comment utiliser la récupération basée sur les incorporations pour résoudre le problème que GPT ne peut pas gérer longtemps texte et les dernières questions sur les données | Site officiel Data Learner (Datalearner)

Les modèles de langage tels que GPT-3 ont une limitation selon laquelle ils peuvent traiter une quantité limitée de texte d'entrée. Cette limite se situe généralement entre quelques milliers et des dizaines de milliers de jetons, selon l'architecture du modèle et les ressources matérielles disponibles.

Cela signifie que pour des textes plus longs, tels que des livres entiers ou de longs articles, il peut ne pas être possible d'introduire tout le texte dans le modèle de langue en une seule fois. Dans ce cas, le texte doit être divisé en plus petits morceaux ou "fragments" qui peuvent être traités individuellement par le modèle de langage. Cependant, une telle segmentation peut poser des problèmes de cohérence contextuelle et de cohérence globale de la sortie, dégradant ainsi la qualité du texte généré.

C'est là que réside l'importance de l'intégration. En représentant les mots et les phrases comme des vecteurs de grande dimension, l'intégration permet aux modèles de langage d'encoder les informations contextuelles du texte d'entrée de manière compacte et efficace. Le modèle peut ensuite utiliser ces informations contextuelles pour générer un texte de sortie plus cohérent et adapté au contexte, même lorsque le texte d'entrée est divisé en plusieurs segments.

En outre, Embedding peut être pré-formé sur une grande quantité de données textuelles, puis affiné sur un petit ensemble de données, ce qui contribue à améliorer la précision et l'efficacité des modèles de langage dans diverses applications de traitement du langage naturel.

Comment laisser le grand modèle résoudre le problème de saisie de texte long (tel que PDF) basé sur l'incorporation ?
Ici, nous donnons un cas pour illustrer comment utiliser l'intégration pour que ChatGPT réponde aux questions dans un texte très long.

Comme mentionné précédemment, la plupart des grands modèles de langage ne peuvent pas gérer des textes trop longs. À moins qu'il ne s'agisse de GPT-4-32K, la plupart des modèles tels que ChatGPT ont une entrée limitée. En supposant que vous ayez un très long PDF en ce moment, comment faites-vous pour que le grand modèle "lise" ce PDF ?

Tout d'abord, vous pouvez créer un vecteur d'incrustation basé sur ce PDF et le stocker dans une base de données (il existe déjà de très bonnes bases de données vectorielles, comme Pinecone).

Ensuite, supposons que vous souhaitiez poser la question "Comment xxx est-il abordé dans ce document ?". Donc, à ce stade, vous avez 2 intégrations vectorielles, l'une est l'intégration de votre question et l'autre est l'intégration PDF précédente. À ce stade, en fonction de l'intégration de votre question, vous devez accéder à la base de données vectorielle pour rechercher l'intégration dans le PDF qui ressemble le plus à l'intégration de la question. Ensuite, envoyez votre intégration de question et l'intégration la plus similaire récupérée à ChatGPT, et laissez ChatGPT répondre.

Bien sûr, vous pouvez également faire de l'ingénierie d'indice pour la question et l'intégration récupérée pour optimiser la réponse ChatGPT.

Comment générer et stocker l'incorporation
En fait, il existe de nombreuses façons de générer l'incorporation. Voici quelques méthodes et bibliothèques plus classiques :

Word2Vec : est un modèle basé sur un réseau de neurones pour mapper des mots dans un espace vectoriel. Word2Vec comprend deux architectures : CBOW (Continuous Bag-of-Words) et Skip-gram. CBOW prédit le mot central à travers le contexte, tandis que Skip-gram prédit le mot contextuel à travers le mot central. Les poids du réseau neuronal entraînés pour ces tâches de prédiction peuvent être utilisés comme incorporations de mots.
GloVe : Le nom complet est Global Vectors for Word Representation, qui est un modèle basé sur une matrice de cooccurrence. Le modèle utilise des méthodes statistiques pour calculer la relation entre les mots, puis produit des intégrations par décomposition en valeurs singulières (SVD). GloVe se caractérise par sa rapidité de calcul par rapport à Word2Vec et sa capacité à s'adapter à des ensembles de données plus volumineux.
FastText : un modèle développé par Facebook AI Research qui ajoute une fonctionnalité n-gramme au niveau des caractères à Word2Vec. Cela permet à FastText de représenter les incorporations de mots inconnus comme la moyenne des caractéristiques connues de n-grammes au niveau des caractères. FastText excelle dans le traitement des mots irréguliers et rares.
Embeddings d'OpenAI : Il s'agit de l'interface API des Embeddings officiellement publiée par OpenAI. Il existe actuellement 2 générations de produits. À l'heure actuelle, il s'agit principalement du modèle de deuxième génération : text-embedding-ada-002. Son entrée la plus longue est de 8191 jetons et la dimension de sortie est de 1536.
Ces méthodes ont toutes leurs propres avantages et scénarios applicables, et le choix de la méthode de génération d'intégration la plus adaptée à une application spécifique doit être évalué et testé au cas par cas. Cependant, quelqu'un l'a testé, et OpenAI devrait être le meilleur à l'heure actuelle. Cependant, il y a des frais ~ mais c'est très bon marché, 1000 jetons n'ont besoin que de 0,0004 dollar américain, c'est-à-dire que 1 dollar américain peut renvoyer environ 3000 pages de contenu. Enregistrez-le simplement après l'avoir obtenu.

À l'heure actuelle, l'intégration peut être enregistrée à l'aide d'une base de données vectorielle. Par exemple,

Le produit de Pinecone a récemment levé 100 millions de dollars pour une valorisation de 1 milliard de dollars. Shopify, Brex, Hubspot sont tous utilisateurs de ses produits.
Milvus est une base de données vectorielles open source.
Anthropic VDB, qui est une base de données vectorielle hautement sécurisée développée par Anthropic, peut effectuer des opérations telles que la modification, la suppression et le remplacement de données vectorielles tout en garantissant l'intégrité de la base de données.
Résumé
L'intégration était très populaire lors de la sortie de word2vec. Il semble qu'il n'ait pas fait si chaud ces dernières années, mais comme la longue limite d'entrée des grands modèles de langage devient de plus en plus évidente, l'intégration de la technologie a de nouveau fait l'objet d'une attention particulière. Donc tout le monde doit travailler dur ici ~~

Je suppose que tu aimes

Origine blog.csdn.net/Climbman/article/details/132008058
conseillé
Classement