Comment obtenir des vecteurs de phrases?

原文地址:https://medium.com/explorations-in-language-and-learning/how-to-obtain-sentence-vectors-2a6d88bd3c8b

Dans plusieurs de mes articles précédents, j’ai discuté des méthodes d’obtention de mots tels que SVD, word2vec ou GloVe. Dans ce post, je résumerai un niveau plus haut et parlerai de 4 méthodes différentes qui ont été proposées pour obtenir des encarts pour des phrases.

Mais d’abord, certains d’entre vous peuvent se demander pourquoi nous avons même besoin d’une méthode différente pour obtenir des vecteurs de phrases. Comme les phrases sont essentiellement composées de mots, il peut être raisonnable de prétendre que le simple fait de prendre la somme ou la moyenne des vecteurs constituants devrait donner une représentation décente de la phrase. Cela s’apparente à une représentation par «sac de mots» et souffre donc des mêmes limitations, à savoir:

Il ignore l’ordre des mots dans la phrase.
Il ignore complètement la sémantique des phrases.

D’autres approches basées sur des vecteurs de mots sont également soumises à des contraintes similaires. Par exemple, une technique moyenne pondérée perd à nouveau l’ordre des mots dans la phrase. Pour remédier à cette situation, Socher et al. ont combiné les mots dans l’ordre donné par l’arbre d’analyse de la phrase. Bien que cette technique puisse convenir à des phrases complètes, elle ne fonctionne pas pour les phrases ou les paragraphes.

Dans un article précédent, j’ai discuté de plusieurs manières d’obtenir des représentations de phrases en tant qu’étape intermédiaire lors de la classification des textes. Plusieurs approches sont utilisées à cette fin, telles que le codage des caractéristiques entre les caractères, les arbres d’analyse, les intégrations régionales (à deux vues), etc. Cependant, la limitation avec une telle représentation «intermédiaire» est que les vecteurs obtenus ne sont pas génériques en ce sens qu’ils sont étroitement liés à l’objectif de classification. En tant que tels, les vecteurs obtenus grâce à la formation sur un objectif peuvent ne pas être extrapolés pour d’autres tâches.

D’autres approches basées sur des vecteurs de mots sont également soumises à des contraintes similaires. Par exemple, une technique moyenne pondérée perd à nouveau l’ordre des mots dans la phrase. Pour remédier à cette situation, Socher et al. combiné les mots dans l’ordre donné par l’arbre d’analyse de la phrase. Bien que cette technique puisse convenir à des phrases complètes, elle ne fonctionne pas pour les phrases ou les paragraphes.

Dans un article précédent, j’ai discuté de plusieurs manières d’obtenir des représentations de phrases en tant qu’étape intermédiaire lors de la classification des textes. Plusieurs approches sont utilisées à cette fin, telles que le codage des caractéristiques entre les caractères, les arbres d’analyse, les intégrations régionales (à deux vues), etc. Cependant, la limitation avec une telle représentation «intermédiaire» est que les vecteurs obtenus ne sont pas génériques en ce sens qu’ils sont étroitement liés à l’objectif de classification. En tant que tels, les vecteurs obtenus grâce à la formation sur un objectif peuvent ne pas être extrapolés pour d’autres tâches.

À la lumière de cette discussion, je vais maintenant décrire 4 méthodes récentes qui ont été proposées pour obtenir des vecteurs de phrase généraux. Notez que chacune de ces catégories appartient à l’une des deux catégories suivantes: (i) inter-phrase, où le vecteur d’une phrase dépend de ses phrases environnantes, et (ii) intra-phrase, où un vecteur de phrase ne dépend que de cette phrase particulière dans isolement.

Vecteurs de paragraphes
Dans cet article d’ICML’14 [1] de Mikolov (qui a également inventé word2vec), les auteurs proposent la solution suivante: un vecteur de phrase peut être appris simplement en attribuant un index à chaque phrase, puis en traitant l’index comme n’importe quel autre mot. Ceci est montré dans la figure suivante.

Essentiellement, chaque paragraphe (ou phrase) est associé à un vecteur unique et les vecteurs combinés de paragraphe et de mot sont utilisés pour prédire le mot suivant. Grâce à un tel entraînement, les vecteurs de paragraphe peuvent commencer à stocker des informations manquantes, agissant ainsi comme une mémoire pour le paragraphe. Pour cette raison, cette méthode s’appelle le modèle de mémoire distribuée (PV-DM).

Pour obtenir les encapsulations pour une phrase inconnue, une étape d’inférence doit être effectuée. Une nouvelle colonne de valeurs initialisées de manière aléatoire est ajoutée à la matrice d’inclusion de phrases. L’étape d’inférence est effectuée en conservant tous les autres paramètres pour obtenir le vecteur requis.

Le modèle PV-DM nécessite une grande quantité d’espace de stockage car les vecteurs de paragraphe sont concaténés avec tous les vecteurs de la fenêtre de contexte à chaque étape de la formation. Pour résoudre ce problème, les auteurs proposent un autre modèle, appelé Distributed BOW (PV-DBOW), qui prédit des mots aléatoires dans la fenêtre contextuelle. L’inconvénient est que ce modèle n’utilise pas l’ordre des mots, et par conséquent moins performant que PV-DM.

skip-thoughts
Alors que PV était un modèle intra-phrase, skip-thoughts [2] est inter-phrase. La méthode utilise la continuité du texte pour prédire la phrase suivante à partir de la phrase donnée. Cela résout également le problème de l’étape d’inférence présente dans le modèle PV. Si vous avez lu à propos de l’algorithme de saut de gramme dans word2vec, skip-thoughts est essentiellement la même technique abstraite au niveau de la phrase.

Dans cet article, les auteurs proposent un cadre d’encodage-décodeur pour la formation, avec un RNN utilisé à la fois pour l’encodage et le décodage. En plus d’une matrice d’incorporation de phrases, cette méthode génère également des vecteurs pour les mots du vocabulaire du corpus. Enfin, la fonction objectif à maximiser est la suivante.

Ici, les indices i + 1 et i-1 représentent respectivement la phrase suivante et la phrase précédente. Dans l’ensemble, la fonction représente la somme des probabilités de journalisation de prédire correctement la phrase suivante et la phrase précédente, compte tenu de la phrase en cours.

Étant donné que les vecteurs de mots sont également précisés au moment de l’entraînement, un problème peut survenir au moment de l’inférence si la nouvelle phrase contient un mot OOV. Pour résoudre ce problème, les auteurs présentent une solution simple pour l’expansion du vocabulaire. Nous supposons que n’importe quel mot, même s’il s’agit de OOV, proviendra certainement d’un espace vectoriel (par exemple w2v), de sorte que nous aurons sa représentation vectorielle dans cet espace. En tant que tel, chaque mot connu a 2 représentations, une dans l’espace RNN et une autre dans l’espace w2v. Nous pouvons alors identifier une matrice de transformation linéaire qui transforme les vecteurs spatiaux w2v en vecteurs spatiaux RNN, et cette matrice peut être utilisée pour obtenir les vecteurs RNN pour les mots OOV.

FastSent
Ce modèle, proposé par Kyunghun Cho [3], est également une technique inter-phrases et est conceptuellement très similaire aux sauts de pensées. La seule différence est qu’elle utilise une représentation BOW de la phrase pour prédire les phrases environnantes, ce qui la rend beaucoup plus efficace sur le plan du calcul que les sauts de pensées. L’hypothèse d’apprentissage reste la même, c’est-à-dire que la sémantique des phrases riches peut être déduite du contenu des phrases adjacentes. Puisque les détails de la méthode sont les mêmes que les sauts de pensées, je ne les répéterai pas ici pour éviter la redondance.

Autoencodeurs séquentiels de débruitage (SDAE)
Cette technique a également été proposée dans le même article [3] que FastSent. Cependant, il s’agit essentiellement d’une méthode intra-phrase dans laquelle l’objectif est de régénérer une phrase à partir d’une version bruyante.

Essentiellement, dans une SDAE, une donnée d’entrée de grande dimension est corrompue selon une fonction de bruit et le modèle est formé pour récupérer les données d’origine à partir de la version corrigée.

Dans le document, la fonction de bruit N utilise 2 paramètres comme suit.

Pour chaque mot w de la phrase S, N le supprime selon une probabilité p0.
Pour chaque bigramme ne se chevauchant pas dans S, N remplace les jetons bigramme par une probabilité px.
Celles-ci sont inspirées des approches de «perte de mots» et de «débossage», respectivement, qui ont été étudiées plus en détail auparavant.

Dans [3], les auteurs ont effectué des évaluations empiriques détaillées de plusieurs méthodes de vecteurs de phrases, y compris toutes les méthodes ci-dessus. De cette analyse, les observations suivantes peuvent être tirées,

Dépendance de la tâche: Bien que les méthodes aient l’intention de produire des représentations de phrases générales qui fonctionnent bien à travers différentes tâches, on constate que certaines méthodes sont mieux adaptées à certaines tâches en raison de l’algorithme inhérent. Par exemple, les sauts de pensées fonctionnent bien sur les tâches d’implication textuelle, alors que les SDAE fonctionnent beaucoup mieux sur la détection des paraphrases.
Inter vs. intra: Les modèles inter-phrases génèrent des vecteurs similaires dans le sens où leurs voisins les plus proches sont les phrases qui ont des concepts partagés. En revanche, pour les modèles intra-phrase, ce sont des phrases qui ont plus de mots qui se chevauchent.
Dépendance vis-à-vis de l’ordre des mots: Bien que l’avis général soit que l’ordre des mots est critique pour les vecteurs de phrase, le score moyen des modèles sensibles à l’ordre des mots est presque égal à celui des autres. C’était encore plus faible pour les modèles RNN dans les objectifs non supervisés, ce qui est en effet surprenant. Une explication à cela peut être que les phrases dans le jeu de données, ou les techniques d’évaluation, ne sont pas suffisamment robustes pour mettre suffisamment en cause les techniques simples basées sur la fréquence des mots.

猜你喜欢

转载自blog.csdn.net/weixin_42936560/article/details/82456319