Weitergabe von zwei multimodalen ICLR-Papieren aus dem Jahr 2023 (Auswirkungen modaler Komplementarität auf multimodale Robustheit und effektives Single-Modal-Lernen für multimodales Repräsentationslernen)

Modalitätskomplementarität zum Verständnis multimodaler Robustheit

In diesem Artikel wird die Bedeutung der Modalitätskomplementarität für die multimodale Robustheit erörtert und eine quantitative Metrik auf Datensatzebene vorgeschlagen, die auf der Informationstheorie basiert, um zu quantifizieren, wie viele komplementäre Informationen zwischen verschiedenen Modalitäten vorhanden sind und wie diese Informationen zur Vorhersage beitragen. Wie viel das Etikett dazu beiträgt. Diese Metrik wird auf Basis des Mutual Information Neural Estimator (MINE) berechnet. Es wird eine zweistufige Pipeline vorgeschlagen, die in eine Datengenerierungsphase und eine Metrikberechnungsphase unterteilt ist. In der Datengenerierungsphase generieren die Autoren Datensätze mit kontrollierter Modalitätskomplementarität. In der Metrikberechnungsphase berechnen die Autoren Metriken anhand des generierten Datensatzes und analysieren die Ergebnisse. , und seine Wirksamkeit wurde durch Experimente bestätigt. Darüber hinaus werden in diesem Artikel verschiedene verwandte Themen wie Transformatoren, kontradiktorische Beispiele und Deep-Learning-Modelle diskutiert.
Der Hauptbeitrag dieses Papiers besteht darin, einen einheitlichen und umsetzbaren Ansatz zur Bewertung und Optimierung multimodaler Lernsysteme sowie einige interessante und aufschlussreiche Erkenntnisse bereitzustellen, wie zum Beispiel: Die optimale Kombination von Modalitäten kann für verschiedene Aufgaben unterschiedlich sein; eine einzelne Modalität kann unterschiedlich sein enthalten ausreichende oder überschüssige Informationen; das Hinzufügen von Rauschen oder fehlenden Werten kann in einigen Fällen die Komplementarität verbessern usw. Das Papier liefert auch theoretische Garantien für die Quantifizierung des Unterschieds zwischen Bayes'schen Fehlerraten für multimodale und fehlende oder verrauschte Modalitäten.

Die Einschränkungen oder zukünftigen Richtungen dieses Papiers sind:
Der theoretische Analyserahmen dieses Papiers ist nur auf multimodale Klassifizierungsaufgaben anwendbar, und für andere Arten multimodaler Aufgaben wie Generierung, Abruf, Dialog usw. sind weitere Erweiterungen und Überprüfungen erforderlich.
Die Indikatorberechnung in diesem Artikel basiert auf dem Mutual Information Neural Estimator (MINE), und MINE selbst kann einige Probleme aufweisen, wie z. B. Schätzungsverzerrung, Instabilität, Hyperparameterempfindlichkeit usw., die sich auf die Genauigkeit und Zuverlässigkeit des Geschlechtsindikators auswirken können.
Der Versuchsaufbau in diesem Artikel ist relativ einfach, es werden nur zwei Modalitäten (Sehen und Sprache) und zwei Rauschtypen (Gaußsches Rauschen und fehlende Werte) berücksichtigt. Für komplexere und realistischere multimodale Szenarien sind weitere Untersuchungen und Analysen erforderlich.
Mutual Information Neural Estimator (MINE) ist eine auf einem neuronalen Netzwerk basierende Methode zur Schätzung der gegenseitigen Information zwischen hochdimensionalen kontinuierlichen Zufallsvariablen. Gegenseitige Information ist ein Index zur Messung der Korrelation zwischen zwei Zufallsvariablen, der der KL-Divergenz1 zwischen der gemeinsamen Verteilung und der Randverteilung zweier Zufallsvariablen entspricht. MINE nutzt einen wichtigen Satz, dass die Maximierung der erwarteten Differenz einer Funktion in Bezug auf die gemeinsame Verteilung und die Randverteilung gleichbedeutend mit der Maximierung der Untergrenze zwischen der Funktion und der gegenseitigen Information ist23. Daher kann MINE ein neuronales Netzwerk durch Gradientenabstieg trainieren, um seine Ausgabe nahe an die Untergrenze der gegenseitigen Information zu bringen, und es verfügt über lineare Skalierbarkeit, Flexibilität und starke Konsistenz.
Die Vorteile von MINE sind:

Es kann die gegenseitige Information zwischen hochdimensionalen kontinuierlichen Zufallsvariablen effizient schätzen, ohne Annahmen oder Näherungen über die Verteilungen zu treffen.
Es kann ein neuronales Netzwerk durch Gradientenabstieg trainieren, sodass seine Ausgabe nahe an der Untergrenze der gegenseitigen Information liegt, ohne dass komplexe Integrations- oder Optimierungsprobleme berechnet werden müssen.
Es verfügt über lineare Skalierbarkeit, Flexibilität und starke Konsistenz, das heißt, es kann Daten jeder Dimension und Stichprobengröße verarbeiten, und sein geschätzter Wert konvergiert zum wahren Wert, wenn die Stichprobe gegen Unendlich tendiert.
Die Nachteile von MINE sind:

Es basiert auf einem einzigen Hyperparameter, der Struktur und Aktivierungsfunktion des neuronalen Netzwerks, und diese Entscheidungen können sich auf die Genauigkeit und Stabilität der Schätzung auswirken.
Es kann eine gewisse Schätzungsverzerrung aufweisen, d. h. sein geschätzter Wert kann je nach Initialisierungs- und Trainingsprozess des neuronalen Netzwerks niedriger oder höher als der wahre Wert sein.
Es kann durch Faktoren wie Stichprobenkorrelation, Rauschen, Ausreißer usw. gestört werden, was zu ungenauen oder unzuverlässigen Schätzungen führt.
Es gibt viele Möglichkeiten, gegenseitige Informationen zu schätzen. Einige der gebräuchlichsten sind:

Direkte Methode: Diese Methode schätzt hΔ® und hΔ(R|S), indem ein Stimulus aus p(S) präsentiert wird und hΔ(R|S) aus wiederholten Präsentationen desselben Stimulus geschätzt wird. Da die zur Schätzung von p(R|S) erforderliche Datenmenge normalerweise groß ist, verwenden die meisten Forscher einige Techniken, um Ober- und Untergrenzen für I(S;R) festzulegen.
K-nächste-Nachbarn-basierte Methode: Diese Methode schätzt die Entropie und die gegenseitige Information unter Verwendung der k-nächsten-Nachbarn-Entfernung, ohne die Daten zu klassifizieren oder die Form der Verteilung anzunehmen. Es ist nichtparametrisch, robust und konsistent, hat aber auch einige Nachteile, wie die Schwierigkeit der Distanzmetrik in hochdimensionalen Räumen, die Wahl des Hyperparameters k und den Einfluss der Stichprobenkorrelation.
Geometrische k-Nearest-Neighbor-basierte Methode: Diese Methode ist eine Verbesserung der k-Nearest-Neighbor-basierten Methode, die das Versagen des euklidischen Abstands in hochdimensionalen Räumen überwindet, indem eine Abstandsmetrik auf der Mannigfaltigkeit definiert wird. Es verwendet den lokalen linearen Einbettungsalgorithmus (LLE) beim Mannigfaltigkeitslernen, um die Daten in einen niedrigdimensionalen Raum abzubilden, und verwendet dann den k-Nearest-Neighbor-Algorithmus in diesem Raum, um die gegenseitigen Informationen zu schätzen. ,

In Abschnitt 3.1 des Papiers geht es hauptsächlich um die Modality Complementarity Metric, einen Indikator zur Bewertung des Grads der Informationskomplementarität zwischen verschiedenen Modalitäten in multimodalen Daten. Dieser Indikator basiert auf den Konzepten der Informationsentropie (Entropy) und der gegenseitigen Information (Mutual Information), die den Beitrag und die Redundanz jeder Modalität in multimodalen Daten zur Gesamtinformation widerspiegeln können. Dieser Indikator kann verwendet werden, um die Robustheit multimodaler Modelle in verschiedenen Szenarien vorherzusagen, z. B. wenn eine bestimmte Modalität fehlt, eine bestimmte Modalität Rauschen oder Konfrontationsangriffen ausgesetzt ist usw. In Abschnitt 3.2 des Papiers geht es hauptsächlich um die theoretische Analyse der multimodalen
Komplementaritätsmessung Modalitätskomplementaritätsmetrik, eine mathematische Ableitung, die verwendet wird, um die Beziehung zwischen dieser Metrik und multimodaler Robustheit zu demonstrieren. Basierend auf den Prinzipien des Bayes'schen Risikos und der Minimierung erwarteter Verluste liefert diese Analyse die Ober- und Untergrenzen zwischen multimodalen Komplementaritätsmetriken und der Leistung multimodaler Modelle in verschiedenen Szenarien. Diese Analyse zeigt, dass je höher das Maß der multimodalen Komplementarität ist, desto geringer ist der Leistungsabfall des multimodalen Modells, wenn eine bestimmte Modalität fehlt oder Rauschen oder gegnerischen Angriffen ausgesetzt ist.
Abschnitt 3.3 dieses Dokuments befasst sich hauptsächlich mit der Berechnung des Modalitätskomplementaritätsmaßes für reale multimodale Datensätze und zeigt die Beziehung zwischen Modalitätskomplementarität und multimodaler Robustheit für verschiedene Datensätze.

Abbildung 2 im Papier zeigt die Beziehung zwischen Modalitätskomplementarität und multimodaler Robustheit unter verschiedenen Bedingungen. Modale Komplementarität ist ein Maß dafür, wie viele Informationen jede Modalität der anderen hinzufügt. Multimodale Robustheit bezieht sich auf die Fähigkeit eines Modells, eine gute Leistung zu erbringen, wenn einige Modalitäten fehlen oder beeinträchtigt sind.
Fügen Sie hier eine Bildbeschreibung ein

Die Rolle von Abbildung 2 besteht darin, die Hauptidee des Papiers zu veranschaulichen: Modale Komplementarität beeinflusst die multimodale Robustheit. Je höher die Komplementarität, desto empfindlicher reagiert das Modell auf fehlende oder verrauschte Modi. Je geringer die Komplementarität, desto robuster ist das Modell für diese Situation.
I(X; Y, Z) stellt die gegenseitige Information zwischen X und (Y, Z) dar, d. h. den Grad, in dem X die Unsicherheit über (Y, Z) reduziert. Sie ist gleich der Entropie von (Y, Z) minus der Entropie von (Y, Z) bei gegebenem X.
I(Z; Y, X) repräsentiert die modale Komplementarität zwischen Z und (Y, Sie ist gleich der Entropie von (Y, X) minus der Entropie von (Y, X) bei gegebenem Z.
I(X; Y, Z) repräsentiert die multimodale Robustheit von X bei gegebenem (Y, Z), das heißt, X kann die Unsicherheit über (Y, Z) reduzieren, wenn (Y, Z) existiert und zuverlässig ist. Sie ist gleich der Entropie von (Y, Z) minus der Entropie von (Y, Z) bei gegebenem X.

Abschnitt 4.2 konzentriert sich auf ein praktisches Verfahren zur Berechnung des modalen Komplementaritätsmaßes. Die Pipeline besteht aus drei Schritten: 1) Verwenden Sie den Mutual Information Neural Estimator (MINE) (Belghazi et al., 2018), um die gegenseitigen Informationen zwischen verschiedenen Modalitäten zu schätzen; 2) Verwenden Sie den Conditional Entropy Neural Estimator (CENE), um eine oder mehrere gegebene Informationen zu schätzen Modalitäten, die bedingte Entropie eines anderen Modals; 3) Verwenden Sie Gleichung (4), um das Modalkomplementaritätsmaß zu berechnen. Die Pipeline kann eine beliebige Anzahl und Art von Modalitäten verarbeiten und kann auf realen multimodalen Datensätzen ausgeführt werden.
Fügen Sie hier eine Bildbeschreibung ein

公式 (4) 定义了模态互补性度量 (MCM) 作为不同模态之间的互信息和条件熵的函数。MCM 可以看作是一个模态在其他模态缺失或受损时能够提供的有用信息的比例。MCM 的值越高,表示一个模态对其他模态的补充程度越高,也就意味着多模态模型在面对缺失或噪声干扰时更容易受到影响。
这种方法的目的是为了定量地评估多模态数据集中不同模态之间的互补性,从而揭示互补性对多模态模型鲁棒性的影响。作者认为,现有的多模态学习理论和实践中忽略了这一重要因素,导致了一些矛盾的结论。因此,他们提出了一个基于信息论的分析框架和一个基于神经网络估计器的计算流程,来探索互补性在不同任务和数据集上的变化,并与多模态模型在缺失、噪声和对抗攻击等情况下的表现进行比较。

On Uni modal Feature Learning in Multi modal Learning

多模态数据的特征抽象为1)单模态特征(可以从单模态训练中学习)和2)配对特征(只能从跨模态交互中学习)。多模态联合训练有望在保证单模态特征学习的基础上受益于跨模态交互。然而,目前的后期融合训练方法仍然存在对每个模态上的单模态特征学习不足的问题,并且证明了这一现象确实损害了模型的泛化能力。针对一个多模态任务,根据单模态和成对特征的分布,从单模态集成(UME)和提出的单模态教师(UMT)中选择有针对性的后期融合学习方法。我们证明,在一个简单的指导策略下,我们可以在多模态数据集上获得与其他复杂的后期融合或中间融合方法
单模态先验有意义的多模态任务。理想情况下,我们希望多模态联合训练能够在保证学习足够多的单模态特征的基础上,通过跨模态交互来学习成对特征。
Fügen Sie hier eine Bildbeschreibung ein

Obwohl multimodales gemeinsames Training die Möglichkeit bietet, gepaarte Merkmale für modalübergreifende Interaktionen zu lernen, ist das Modell anfällig für Sättigung und ignoriert einmodale Merkmale, die schwer zu erlernen, aber für die Verallgemeinerung wichtig sind. Neuere späte Fusionsmethoden leiden jedoch immer noch unter dem Lernen von
A Dem Problem liegt eine unimodale Darstellung jeder Modalität zugrunde. Wir bezeichnen dieses Phänomen als Modalfaulheit und veranschaulichen es in Abbildung 1. Wir charakterisieren theoretisch die Modalitätsfaulheit und zeigen, dass sie die Modellverallgemeinerung beeinträchtigt, insbesondere wenn unimodale Merkmale eine bestimmte Aufgabe dominieren.
Wir konzentrieren uns auf das Erlernen unimodaler Merkmale und wählen gezielte Late-Fusion-Trainingsmethoden aus Uni-ModalEnsemble (UME) und dem vorgeschlagenen unimodalen Lehrer (UMT) entsprechend der Verteilung unimodaler Merkmale und gepaarter Merkmale aus. UMT ist effektiv, wenn sowohl unimodale als auch paarweise Merkmale erforderlich sind, und kann multimodalen Modellen dabei helfen, unimodale Merkmale durch unimodale Destillation besser zu lernen; wenn beide Modalitäten stark genug sind. Wenn die unimodalen Merkmale nicht wichtig genug sind, wird UME verwendet, das die kombiniert Vorhersage unimodaler Modelle und vermeidet vollständig das fehlende Lernen unimodaler Merkmale. Wir geben Ihnen auch einen Faustregel-Tipp für die Entscheidung, welches Sie verwenden sollten.
Vor- und Nachteile des gemeinsamen Trainings: Einerseits führt das gemeinsame Training zu einem unzureichenden Erlernen einmodaler Merkmale (Modality Lazy). Andererseits ermöglicht es Interaktionen zwischen Modalitäten, andere Darstellungen als unimodale Merkmale, d. h. paarweise Merkmale, zu lernen. Auf dieser Grundlage bieten wir Leitlinien für multimodales Late-Fusion-Lernen. Abschließend liefern wir eine theoretische Analyse der Modalfaulheit und ein Argument für unsere Lösung.
Visual Question Answering (VQA) (Agrawal et al., 2018) ist ein Gegenbeispiel. Insbesondere kann dasselbe Bild mit unterschiedlichen Textfragen völlig unterschiedliche Beschriftungen haben, sodass es keinen Sinn macht, seine unimodale Genauigkeit zu überprüfen.
Fügen Sie hier eine Bildbeschreibung ein

Durch Mittelung der Vorhersagen der unimodalen Modelle wird ein multimodaler linearer Klassifikator auf dem vorab trainierten unimodalen Encoder trainiert, wobei Modalitäten über lineare Schichten und naive Fusion interagieren können, ohne aufwändige Tricks zur modalitätenübergreifenden Zustandsinteraktion zu verwenden.

Für eine multimodale Aufgabe ist Uni-ModalTeacher (UMT) effektiv, wenn sowohl unimodale als auch gepaarte Merkmale erforderlich sind; wenn beide Modalitäten starke unimodale Merkmale aufweisen, gepaarte Merkmale dagegen nicht. Wichtig ist, dass dies gut funktioniert, indem einfach Vorhersagen aus unimodalen Modellen kombiniert werden, ein bekannter Ansatz als unimodales Ensemble (UME).
Fügen Sie hier eine Bildbeschreibung ein

φ′miis ist ein Encoder mit überwachtem Vortraining für unimodale Daten. φmi ist ein zufälliger Anfangsencoder ohne Vortraining. Lmulti ist der Verlust zwischen multimodalen Vorhersagen und Beschriftungen. Ldistill ist der unimodale Destillationsverlust.
Die unimodale Destillation findet vor der Fusion statt, und das Extrahieren von Wissen aus unimodalen Modellen durch die späte Fusion
kann dazu beitragen, dass multimodale Modelle unimodale Merkmale besser erlernen, was auf Merkmalsebene geschieht. Das Framework von UMT ist in Abbildung 1 und Abbildung 4 dargestellt. Beachten Sie, dass wir für eine bestimmte Modalität sowohl in unimodalen als auch in multimodalen Modellen dasselbe Grundgerüst verwenden.
Wenn beide Modalitäten starke unimodale Merkmale aufweisen, kann gemeinsames Training mehr schaden als nützen. Durch die Kombination von Vorhersagen aus unimodalen Modellen wird ein unzureichendes Lernen unimodaler Merkmale vermieden. Erstens können wir unimodale Modelle unabhängig trainieren. Wir können dann die endgültige Ausgabe liefern, indem wir die Vorhersagen des unimodalen Modells gewichten. Einfache Ensemble-Methoden werden als unimodale Ensembles (UME) bezeichnet. Wir zeigen, dass UME bei bestimmten multimodalen Datensätzen eine wettbewerbsfähige Leistung erbringen kann.
Ein empirischer Trick, um zu entscheiden, welche Methode verwendet werden soll. Wir können einen multimodalen linearen Klassifikator auf dem unimodalen vortrainierten Encoder trainieren und ihn mit der durchschnittlichen Vorhersage des unimodalen Modells vergleichen. Wenn die Leistung des Klassifikators besser ist, bedeutet dies, dass wir bei dieser Aufgabe von der modalübergreifenden Interaktion profitieren können. Wir können UMT wählen, um die modalübergreifende Interaktion beizubehalten und gleichzeitig ein verbessertes unimodales Merkmalslernen zu gewährleisten. Andernfalls einfach Die modalübergreifende Interaktion Die Interaktion von UME schadet mehr als sie nützt. Da jede Modalität starke unimodale Eigenschaften aufweist, können wir UME wählen, wodurch Modalfaulheit vollständig vermieden wird.
Beweis: Aus der Perspektive des Feature-Lernens ist bewiesen, dass modale Trägheit tatsächlich schädlich für die Verallgemeinerung von Multimodalität ist. Multimodales gemeinsames
Training kann mehr Features lernen als single-modales Training, aber die gelernten Features sind nicht unbedingt nützlich und schaden sogar dem Modell. Verallgemeinerung. Satz 3.4 besagt, dass der Trainingsprozess in unimodalen Ensembles weniger unimodale Merkmale lernt als unimodales Training, was der Modellverallgemeinerung schadet. Dieses Phänomen wird modale Faulheit genannt
Fügen Sie hier eine Bildbeschreibung ein

UMT, Bm1-Merkmale, die aus der Modalität xm1 gelernt wurden. Bei der multimodalen Trainingsmethode wird davon ausgegangen, dass das Trainingsprogramm die unimodalen Merkmale von km1 in der Modalität xm1 und die unimodalen Merkmale von km2 in der Modalität xm2 lernt und die gepaarten Merkmale von kpa lernt Betrachten Sie
a neuer Testpunkt, dann für jedes δ > 0, wenn die folgende Ungleichung gilt:
wobei ∆(δ) = p 8(kpa + bm1 − km1 + bm2 − km2) log(1 /δ), dann mit einer Wahrscheinlichkeit von mindestens 1 − δ, unimodale Ensembles übertreffen multimodale Trainingsmethoden probabilistisch. Anzahl der Testpunkte Faulheit
bedeutet, dass beim einfachen multimodalen Training weniger Merkmale gelernt werden als beim unimodalen Training.
Unimodale Faulheit zeigt, dass multimodal trainierte Encoder aufgrund quantitativer Faulheit schlechter abschneiden als unimodal trainierte Encoder, was mit den experimentellen Ergebnissen in Abschnitt 3.1 übereinstimmt.
Performance Laziness vergleicht die Leistung multimodaler gemeinsamer Trainingsmethoden mit unimodalen Ensembles und zeigt, dass die Kombination unimodaler Vorhersagen effektiver ist, wenn unimodale Merkmale dominieren.

おすすめ

転載: blog.csdn.net/weixin_42455006/article/details/129841832