2023년 ICLR 다중 모드 논문 2개 공유(다모드 표현 학습을 위한 다중 모드 견고성과 효과적인 단일 모드 학습에 대한 모드 상보성의 영향)

다중 모달 견고성을 이해하기 위한 모달 상보성

이 백서에서는 다중 모드 견고성에서 양식 상보성의 중요성에 대해 논의하고 서로 다른 양식 사이에 얼마나 많은 보완 정보가 있는지, 그리고 이 정보가 예측에 어떻게 기여하는지를 정량화하기 위해 정보 이론을 기반으로 하는 데이터 세트 수준의 정량적 메트릭을 제안합니다. 라벨이 기여하는 정도. 이 메트릭은 상호 정보 신경 추정기(MINE)를 기반으로 계산됩니다. 데이터 생성 단계와 메트릭 계산 단계로 구분되는 2단계 파이프라인을 제안합니다. 데이터 생성 단계에서 작성자는 제어된 양식 상보성을 사용하여 데이터 세트를 생성합니다. 메트릭 계산 단계에서 작성자는 생성된 데이터 세트를 사용하여 메트릭을 계산하고 결과를 분석합니다. , 그 효과는 실험을 통해 검증되었습니다. 또한 변환기, 적대적 예제 및 딥 러닝 모델과 같은 다양한 관련 주제가 이 백서에서 논의됩니다.
이 백서의 주요 기여는 다중 모달 학습 시스템을 평가하고 최적화하기 위한 통합되고 실행 가능한 접근 방식과 다음과 같은 몇 가지 흥미롭고 계몽적인 결과를 제공하는 것입니다. 충분하거나 과도한 정보를 포함 노이즈 또는 누락 값을 추가하면 경우에 따라 보완성을 향상시킬 수 있습니다. 이 백서는 또한 다중 모드와 누락 또는 잡음이 있는 양식에 대한 베이지안 오류율 간의 차이를 정량화하기 위한 이론적 보증을 제공합니다.

본 논문의 한계점 또는 향후 방향은 다음과 같다.
본 논문의 이론적 분석 프레임워크는 다중모달 분류 작업에만 적용 가능하며 생성, 검색, 대화 등과 같은 다른 유형의 다중모달 작업에 대한 추가 확장 및 검증이 필요하다.
본 논문의 지표계산은 MINE(상호정보신경추정기)에 의존하고 있으며, MINE 자체는 추정 편향, 불안정성, 하이퍼파라미터 민감도 등 지표 성별의 정확도와 신뢰도에 영향을 줄 수 있는 몇 가지 문제가 있을 수 있다.
본 논문의 실험 설정은 비교적 간단하며 두 가지 양식(시각 및 언어)과 두 가지 노이즈 유형(가우시안 노이즈 및 누락된 값)만 고려합니다.
MINE(Mutual Information Neural Estimator)은 고차원 연속 랜덤 변수 간의 상호 정보를 추정하기 위한 신경망 기반 방법입니다. 상호정보는 두 확률변수의 상관관계를 측정하기 위한 지표로, 두 확률변수의 결합분포와 주변분포의 KL divergence1과 같다. MINE은 결합 분포와 한계 분포에 대한 함수의 예상 차이를 최대화하는 것이 함수와 상호 정보 사이의 하한을 최대화하는 것과 같다는 중요한 정리를 이용합니다23. 따라서 MINE은 경사하강법을 통해 신경망을 훈련시켜 출력을 상호 정보의 하한에 가깝게 만들 수 있으며 선형 확장성, 유연성 및 강력한 일관성을 가지고 있습니다.
MINE의 장점은 다음과 같습니다.

분포에 대한 가정이나 근사치를 만들지 않고 고차원 연속 무작위 변수 간의 상호 정보를 효율적으로 추정할 수 있습니다.
복잡한 적분이나 최적화 문제를 계산하지 않고도 출력이 상호 정보의 하한에 가까워지도록 경사 하강법으로 신경망을 훈련시킬 수 있습니다.
그것은 선형 확장성, 유연성 및 강력한 일관성을 가지고 있습니다. 즉, 모든 차원 및 샘플 크기의 데이터를 처리할 수 있으며 샘플이 무한대 경향이 있을 때 추정 값이 실제 값으로 수렴됩니다.
MINE의 단점은 다음과 같습니다.

단일 하이퍼파라미터, 신경망의 구조 및 활성화 기능에 의존하며 이러한 선택은 추정의 정확성과 안정성에 영향을 미칠 수 있습니다.
약간의 추정 편향이 있을 수 있습니다. 즉, 신경망의 초기화 및 훈련 프로세스에 따라 추정값이 실제 값보다 낮거나 높을 수 있습니다.
샘플 상관 관계, 노이즈, 이상치 등과 같은 요인에 의해 방해를 받아 부정확하거나 신뢰할 수 없는 추정치가 나올 수 있습니다.
상호 정보를 추정하는 방법에는 여러 가지가 있으며 일반적인 방법 중 일부는 다음과 같습니다.

직접 방법: 이 방법은 p(S)에서 자극을 제시하고 동일한 자극의 반복 제시에서 hΔ(R|S)를 추정하여 hΔ® 및 hΔ(R|S)를 추정합니다. 일반적으로 p(R|S)를 추정하는 데 필요한 데이터의 양이 많기 때문에 대부분의 연구자는 I(S;R)의 상한 및 하한을 설정하는 몇 가지 기술을 사용합니다.
K-최근접 이웃 기반 방법: 이 방법은 데이터를 비닝하거나 분포의 형태를 가정하지 않고 k-최근접 이웃 거리를 사용하여 엔트로피 및 상호 정보를 추정합니다. 비모수적이고 강력하며 일관성이 있지만 고차원 공간에서 거리 메트릭의 어려움, 하이퍼파라미터 k의 선택 및 샘플 상관 관계의 영향과 같은 몇 가지 단점도 있습니다.
기하 k-최근접 이웃 기반 방법: 이 방법은 매니폴드에 거리 메트릭을 정의하여 고차원 공간에서 유클리드 거리의 실패를 극복하는 k-최근접 이웃 기반 방법을 개선한 것입니다. 매니폴드 학습에서 로컬 선형 임베딩(LLE) 알고리즘을 활용하여 데이터를 저차원 공간에 매핑한 다음 이 공간에서 k-최근접 이웃 알고리즘을 사용하여 상호 정보를 추정합니다. ,

논문의 섹션 3.1은 주로 다중 모드 데이터에서 서로 다른 양식 간의 정보 상보성 정도를 평가하는 데 사용되는 지표인 양식 보완성 메트릭에 대해 설명합니다. 이 지표는 정보 엔트로피(Entropy)와 상호 정보(Mutual Information)의 개념을 기반으로 하며, 다중 모드 데이터에서 각 양식의 기여도와 중복성을 전체 정보에 반영할 수 있습니다. 이 지표는 특정 양식 누락, 노이즈 또는 대결 공격의 대상이 되는 특정 양식 등과 같은 다양한 시나리오에서 다중 모드 모델의 견고성을 예측하는 데 사용할 수 있습니다. 논문의 섹션 3.2는 주로 다중 모드 상보성 측정에 대한 이론적 분석에 대해 설명합니다
. Modality Complementarity Metric은 이 메트릭과 다중 모드 견고성 간의 관계를 설명하는 데 사용되는 수학적 파생입니다. 베이지안 위험 및 예상 손실 최소화 원칙에 따라 이 분석은 다양한 시나리오에서 다중 모드 상보성 메트릭과 다중 모드 모델 성능 사이의 상한 및 하한을 제공합니다. 이 분석은 다중 모드 상보성 측정이 높을수록 특정 양식이 누락되거나 노이즈 또는 적대적 공격을 받을 때 다중 모드 모델의 성능 저하가 작아진다는 것을 보여줍니다.
이 백서의 섹션 3.3에서는 주로 실제 다중 모드 데이터 세트에서 양식 상보성 측정을 계산하는 방법에 대해 설명하고 다양한 데이터 세트에 대한 양식 상보성과 다중 모달 견고성 간의 관계를 보여줍니다.

논문의 그림 2는 다양한 설정에서 양식 상보성과 다중 양식 견고성 간의 관계를 보여줍니다. 양식 상보성은 각 양식이 다른 양식에 얼마나 많은 정보를 추가하는지 측정합니다. 다중 모드 견고성은 일부 양식이 누락되거나 손상된 경우 모델이 잘 수행되는 기능을 나타냅니다.
여기에 이미지 설명 삽입

그림 2의 역할은 논문의 주요 아이디어를 설명하는 것입니다. 모달 상보성은 다중 모달 견고성에 영향을 미칩니다. 상보성이 높을수록 모델이 누락 또는 노이즈 모드에 더 민감합니다. 상보성이 낮을수록 모델이 이 상황에 더 강건합니다.
I(X; Y, Z)는 X와 (Y, Z) 간의 상호 정보, 즉 X가 (Y, Z)에 대한 불확실성을 줄이는 정도를 나타냅니다. 주어진 X에서 (Y, Z)의 엔트로피에서 (Y, Z)의 엔트로피를 뺀 것과 같습니다.
I(Z; Y, X)는 Z와 (Y, X) 사이의 모달 상보성, 즉 (Y, X)가 누락되거나 손상된 정도일 때 (Y, X)에 대한 불확실성을 줄이는 Z의 능력을 나타냅니다. (Y, X)의 엔트로피에서 Z가 주어졌을 때 (Y, X)의 엔트로피를 뺀 것과 같습니다.
I(X; Y, Z)는 (Y, Z)가 주어진 X의 다중 모드 견고성을 나타냅니다. 즉, X는 (Y, Z)가 존재할 때 (Y, Z)에 대한 불확실성을 줄일 수 있고 신뢰할 수 있는 정도입니다. 주어진 X에서 (Y, Z)의 엔트로피에서 (Y, Z)의 엔트로피를 뺀 것과 같습니다.

섹션 4.2는 모달 상보성 측정을 계산하기 위한 실제 절차에 중점을 둡니다. 파이프라인은 세 단계로 구성됩니다: 1) 상호 정보 신경 추정기(MINE)(Belghazi et al., 2018)를 사용하여 서로 다른 양식 간의 상호 정보를 추정하고, 2) 조건부 엔트로피 신경 추정기(CENE)를 사용하여 주어진 하나 이상의 양식, 다른 모달의 조건부 엔트로피 3) 방정식 (4)를 사용하여 모달 상보성 측정을 계산합니다. 파이프라인은 모든 수와 유형의 양식을 처리할 수 있으며 실제 다중 양식 데이터 세트에서 실행할 수 있습니다.
여기에 이미지 설명 삽입

방정식 (4)는 모드 상보성 측정(MCM)을 서로 다른 양식 간의 상호 정보 및 조건부 엔트로피의 함수로 정의합니다. MCM은 다른 양식이 없거나 손상된 경우 양식이 제공할 수 있는 유용한 정보의 비율로 볼 수 있습니다. MCM 값이 높을수록 다른 양식에 대한 한 양식의 상보성 정도가 높음을 나타내며, 이는 다중 양식 모델이 부재 또는 잡음 간섭에 더 취약하다는 것을 의미합니다.
이 접근 방식의 목적은 다중 모드 데이터 세트에서 서로 다른 양식 간의 상보성을 정량적으로 평가하여 다중 모드 모델의 견고성에 대한 상보성의 영향을 밝히는 것입니다. 저자는 이 중요한 요소가 기존의 다중 모드 학습 이론 및 실습에서 간과되어 일부 모순된 결론에 도달했다고 주장합니다. 따라서 서로 다른 작업과 데이터 세트에 대한 상보성의 변화를 탐색하고 누락, 잡음 및 적대적 공격 등에서 다중 모델과 비교하기 위해 정보 이론에 기반한 분석 프레임워크와 신경망 추정기에 기반한 계산 파이프라인을 제안했습니다. 상황의 성능이 비교됩니다.

다중 모달 학습의 단일 모달 기능 학습

다중 모드 데이터에 대한 기능 추상화는 1) 단일 모드 기능(단일 모드 교육에서 학습 가능) 및 2) 쌍 기능(교차 모드 상호 작용에서만 학습 가능)입니다. 다중 모드 공동 훈련은 단일 모드 기능 학습을 보장하면서 교차 모드 상호 작용의 이점을 얻을 것으로 예상됩니다. 그러나 현재의 Post-fusion 학습 방법은 여전히 ​​각 modality에 대한 unimodal feature의 학습이 불충분한 문제를 안고 있으며, 이러한 현상이 모델의 일반화 능력을 해치는 것으로 입증되었습니다. 멀티모달 과제의 경우, 유니모달 및 페어와이즈 특징의 분포에 따라 유니모달 앙상블(UME)과 제안된 유니모달 교사(UMT) 중에서 표적 후기 융합 학습 방법을 선택합니다. 우리는 간단한 안내 전략 하에서 다른 복잡한 후기 융합 또는 중간 융합 방법과 비교하여 단일 모달 사전이 있는 다중 모달 데이터 세트에서
의미 있는 다중 모달 사전을 얻을 수 있음을 보여줍니다. 이상적으로는 다중 모드 공동 훈련이 단일 모드 기능이 충분히 학습되었는지 확인하는 것을 기반으로 교차 모드 상호 작용을 통해 쌍별 기능을 학습할 수 있기를 바랍니다.
여기에 이미지 설명 삽입

multimodal joint training은 cross-modal interaction을 위한 paired feature를 학습할 수 있는 기회를 제공하지만, 모델은 포화되기 쉬우며 배우기 어렵지만 일반화에 중요한 단일-modal feature를 무시합니다
. 각 양식의 단일 양식 표현이 문제의 기초가 됩니다. 이 현상을 모달 게으름이라고 하며 그림 1에 설명합니다. 우리는 이론적으로 양식 게으름을 특성화하고 특히 단봉 기능이 주어진 작업을 지배할 때 모델 일반화를 손상시킨다는 것을 보여줍니다.
우리는 유니모달 특징의 학습에 초점을 맞추고 유니모달 특징과 쌍을 이룬 특징의 분포에 따라 Uni-ModalEnsemble(UME)과 제안된 유니모달 교사(UMT)에서 목표 후기 융합 훈련 방법을 선택합니다. UMT는 유니모달과 페어와이즈 특징이 모두 필요한 경우에 효과적이며, 멀티모달 모델이 유니모달 증류를 통해 유니모달 특징을 더 잘 학습하도록 도울 수 있습니다. 유니모달 모델을 예측하고 유니모달 기능 학습 부족을 완전히 방지합니다. 또한 어느 것을 사용할지 결정하기 위한 어림짐작 팁도 제공합니다.
공동 훈련의 장단점: 한편으로 공동 훈련은 단일 모달 기능의 학습 부족(Modality lazy)으로 이어집니다. 다른 한편으로, 단일 모달 기능, 즉 쌍별 기능 이외의 표현을 학습하기 위해 양식 간의 상호 작용을 허용합니다. 이를 바탕으로 multimodal late fusion learning에 대한 지침을 제공합니다. 마지막으로 모달 게으름에 대한 이론적 분석과 솔루션에 대한 주장을 제공합니다.
VQA(Visual Question Answering)(Agrawal et al., 2018)는 반례입니다. 특히, 다른 텍스트 질문이 있는 동일한 이미지는 완전히 다른 레이블을 가질 수 있으므로 단일 모드 정확도를 확인하는 것이 무의미합니다.
여기에 이미지 설명 삽입

유니모달 모델의 예측을 평균화하는 다중모달 선형 분류기는 미리 훈련된 유니모달 인코더에서 훈련됩니다. 여기서 모달리티는 교차 모달리티 상태 상호 작용에 대한 정교한 트릭을 사용하지 않고 선형 레이어, 순진한 융합을 통해 상호 작용할 수 있습니다.

다중 모드 작업의 경우 UMT(Uni-ModalTeacher)는 단일 모드와 쌍으로 구성된 기능이 모두 필요한 경우에 효과적입니다. 유니모달 앙상블(UME)로.
여기에 이미지 설명 삽입

φ′miis는 유니모달 데이터에 대한 지도 사전 훈련이 포함된 인코더입니다. φmi는 사전 훈련이 없는 임의의 초기 엔코더입니다. Lmulti는 다중 모드 예측과 레이블 간의 손실입니다. Ldistill은 단봉 증류 손실입니다. 유니모달 증류는 융합 전에 발생하며, 유니모달 모델에서 지식을 추출하는
후기 융합은 멀티모달 모델이 기능 수준에서 발생하는 유니모달 기능을 더 잘 학습하는 데 도움이 될 수 있습니다.
UMT의 프레임워크는 그림 1과 그림 4에 나와 있습니다. 특정 양식의 경우 단일 양식 및 다중 양식 모델 모두에서 동일한 백본을 사용합니다.
두 양식 모두 강력한 단일 양식 기능이 있는 경우 공동 훈련은 득보다 실이 더 많을 수 있습니다. 유니모달 모델의 예측을 결합하면 유니모달 기능의 과소 학습을 방지할 수 있습니다. 첫째, 유니모달 모델을 독립적으로 훈련할 수 있습니다. 그런 다음 유니모달 모델의 예측에 가중치를 부여하여 최종 출력을 제공할 수 있습니다. 단순한 앙상블 방법을 UME(unimodal ensembles)라고 합니다. 우리는 UME가 특정 다중 모드 데이터 세트에서 경쟁력 있는 성능을 나타낼 수 있음을 보여줍니다.
사용할 방법을 결정하는 경험적 요령. 유니모달 사전 훈련된 인코더에서 다중 모달 선형 분류기를 훈련하고 이를 유니모달 모델의 평균 예측과 비교할 수 있습니다. 분류기의 성능이 더 좋다면 이 작업에서 교차 모달 상호 작용의 이점을 얻을 수 있다는 것을 의미하며 UMT를 선택하여 교차 모달 상호 작용을 유지하면서 개선된 단일 모달 기능 학습을 보장할 수 있습니다. UME의 상호 작용은 득보다 실이 더 많습니다. 각 양식은 강력한 단일 양식 특성을 가지고 있기 때문에 양식 게으름을 완전히 피하는 UME를 선택할 수 있습니다.
Proof: Feature learning의 관점에서 modal inertia가 multimodality의 일반화에 실제로 해롭다는 것이 증명되었습니다
. 모델.일반화. 정리 3.4에 따르면 단일 모드 앙상블에서 훈련 프로세스는 단일 모드 훈련보다 더 적은 수의 단일 모드 기능을 학습하므로 모델 일반화가 손상됩니다. 이러한 현상을 모달 게으름이라고 합니다.
여기에 이미지 설명 삽입


모달리티 xm1에서 학습된 UMT, Bm1 특징, 다중모달 훈련 방법에서 훈련 프로그램은 모달리티 xm1에서 km1의 단모달 특징과 모달리티 xm2에서 km2의 단모달 특징을 학습하고, kpa 의 쌍을 이루는 특징을 학습했다고 가정합니다. 다음 부등식이 유지되는 경우 각 δ > 0에 대해 새 테스트 포인트:
여기서 ∆(δ) = p 8(kpa + bm1 - km1 + bm2 - km2) log(1 /δ), 최소 1 - δ, 유니모달 앙상블은 확률론적으로 멀티모달 훈련 방법을 능가합니다.테스트 포인트 수 게으름은
단일 모달 훈련보다 단순 멀티모달 훈련에서 학습되는 기능이 적다는 것을 의미합니다.
단일 모드 게으름은 정량적 게으름으로 인해 다중 모드로 훈련된 인코더가 단일 모드로 훈련된 인코더보다 성능이 좋지 않음을 보여줍니다. 이는 섹션 3.1의 실험 결과와 일치합니다.
성능 게으름은 다중 모드 관절 훈련 방법의 성능을 단일 모드 앙상블과 비교하여 단일 모드 기능이 지배적일 때 단일 모드 예측을 결합하는 것이 더 효과적임을 보여줍니다.

Supongo que te gusta

Origin blog.csdn.net/weixin_42455006/article/details/129841832
Recomendado
Clasificación