Réseau complémentaire intermodal avec fusion hiérarchique pour la classification multimodale des sentiments

1. Le problème résolu dans cet article

  • Les stratégies qui mesurent de manière incorrecte la force de l'association entre les images et le texte peuvent conduire à une fausse fusion, c'est-à-dire que des paires image-texte qui peuvent ne pas être liées les unes aux autres sont également fusionnées ;
  • Même s'il existe une véritable connexion, le simple épissage des vecteurs de caractéristiques de chaque modalité ne peut pas exploiter pleinement les informations de caractéristiques au sein d'une seule modalité et entre plusieurs modalités ;

  Partant des deux problèmes ci-dessus, cet article propose le modèle CMCN (Cross-Modal Complementary Network with hierarchical fusion). La structure du modèle est la suivante :
insérer la description de l'image ici

  Le modèle est divisé en trois parties, FEM (Feature Extraction Module, partie d'extraction de fonctionnalités), FAM (Feature Attention Module, la partie qui implémente les opérations d'attention sur les fonctionnalités d'image et de texte), CMHF (module Cross-Modal Hierarchical Fusion, partie de fusion en couches ).

​L'auteur   estime que les informations textuelles ont des caractéristiques sémantiques avancées. Pour la classification des sentiments, les caractéristiques du texte obtenues par le mécanisme d'attention sont plus discriminantes et ont plus de sémantique, de sorte que le texte est utilisé comme mode principal et le texte est utilisé pour connaître le attention à l'image.Génération de vecteurs de force.

1.1 FAM

​ Générer une corrélation image-texte, l'entrée de ce module est la fonctionnalité de texte original codée F t F_tFtet des images transcrites en tant qu'éléments de texte correspondants F ti F_{ti}Fje _, en utilisant la similarité cosinus pour mesurer la pertinence de l'image et du texte, le module calculera une valeur ccc .
insérer la description de l'image ici
insérer la description de l'image ici

ccc indique dans quelle mesure le vecteur d'attention du texte joue dans le processus de génération du vecteur d'attention de l'image.

1.2 FMHC

Cette couche se compose de quatre parties et la partie Suréchantillonnage utilise quatre fonctionnalités, à savoir F t , F i , F tatt , F iatt F_{t}, F_{i},F_{t_{att}},F_{i_{att }}Ft,Fje,Ftun tt,Fjeun ttmappé sur le même espace dimensionnel ;

insérer la description de l'image ici

En montant d'un niveau, effectuez 4 opérations de fusion, fusion au sein du mode et fusion entre modes, où g( ) signifie fusion par produit scalaire ;
insérer la description de l'image ici

En remontant d'une couche, l'opération de fusion globale est effectuée et les quatre vecteurs obtenus dans la couche précédente sont fusionnés pour obtenir le vecteur de caractéristiques global.
insérer la description de l'image ici

Obtenez le contenu des quatre balises, et effectuez la fonction d'entropie croisée avec la valeur réelle pour obtenir quatre pertes, et optimisez le modèle par optimisation conjointe des quatre pertes.
insérer la description de l'image ici

2. L'ensemble de données utilisé dans l'expérience
insérer la description de l'image ici

3. Résultats expérimentaux

insérer la description de l'image ici

4. Résumé

  Il y a quelques problèmes avec cet article. Tout d'abord, en termes de formule, la forme dimensionnelle de chaque quantité dans la formule n'indique pas sa valeur. Au cours du processus de dérivation de la formule, elle est complètement confuse. Lorsque certains les gens le poussent, ils sentent que les deux tenseurs sont différents Les dimensions sont toutes différentes, donc il n'y a aucun moyen de calculer (d'après le schéma modèle de l'article, les vecteurs intermédiaires obtenus dans l'article sont tous des vecteurs unidimensionnels).

​ Au début de l'article, il était dit qu'une stratégie inappropriée de mesure de la corrélation image-texte pouvait conduire à une mauvaise fusion. Après l'avoir lu, j'ai pensé que s'il n'y avait pas de corrélation entre l'image et le texte, alors ne leur permettez pas d'être fusionné, afin qu'il n'y ait pas de mauvaise fusion. Mais après avoir lu la formule dans l'article, j'ai découvert que ce n'était pas le cas : toute paire de données image-texte dans l'ensemble de données sera toujours fusionnée.

Je suppose que tu aimes

Origine blog.csdn.net/qq_43775680/article/details/130092588
conseillé
Classement