【종이 노트】Fuse 전에 정렬: 운동량 증류를 통한 시각 및 언어 표현 학습

0. 서문 

[참고] Multimodal Dissertation Lectures

2021년 이전의 연구에 따르면 몇 가지 큰 추세가 있습니다.

(1) 모델의 시각적 능력이 텍스트 추출 능력보다 강해야 함

(2) 모델 융합은 단순한 내적 연산(클립)이 아닌 보다 복잡한 설계를 가져야 합니다.

(3) 손실함수 선택 : ① ITC ② MLM ③ ITM

WPA 손실 함수를 포기하는 이유는 훈련에 상대적으로 많은 비용이 들기 때문입니다. (빌트 참조)

1. 소개

1.1 과제

(1) 이미지 피처와 단어 토큰 임베딩은 자체 공간에 존재하며, 둘 사이의 관계를 모델링하기 어렵습니다.

(2) 객체 감지기 라벨링 및 계산 비용이 너무 높음

(3) ALT 데이터셋의 노이즈가 학습에 영향을 미침(웹에서 크롤링되는 대부분의 데이터셋은 주로 키워드이므로 잘 설명할 수 없음)

1.2 이 논문의 핵심 기여

  • 제안된 ALign BEfore Fuse(ALBEF)
  • 제안된 모멘텀 증류(MoD)

2. 알베프

2.1 모델 아키텍처

  • Visual Encoder: 12단 VIT 기반 사용
  • 텍스트 인코더: BERTbase[40] 모델의 처음 6개 계층
  • 멀티모달 인코더: BERTbase의 마지막 6계층

VILT를 통한 이미지

2.2 사전 훈련을 위한 세 가지 손실 함수

단일 모드 인코더에 대한 이미지-텍스트 대조 학습(ITC), 다중 모드 인코더에 대한 MLM(마스킹된 언어 모델링) 및 ITM(이미지-텍스트 매칭).

2.2.1 이미지-텍스트 대조 학습(ITC)

일반 소프트맥스:

이 백서의 소프트맥스:

 이 논문은 학습 가능한 온도 매개변수 T를 소개합니다.

원-핫 분포의 이미지 텍스트 유사도와 소프트맥스 유사도를 통한 교차 엔트로피 측정값 획득

2.2.2 마스킹된 언어 모델링(MLM)

고전적인 버트 훈련 방법. 입력 토큰은 15%의 확률로 무작위로 마스킹되기 때문에 여기서 두 번째 전달 패스가 필요합니다.

2.2.3 이미지-텍스트 일치(ITM)

교육을 위한 계산 오버헤드가 없는 ITM 작업에 대해 하드 부정 데이터를 샘플링하는 전략이 제안됩니다. 이미지(또는 텍스트)와 유사성이 높은 텍스트(또는 이미지)를 샘플링하기 위해 이미지-텍스트 대조 학습에서 얻은 Softmax 유사성을 사용합니다. ).

2.3 모멘텀 증류 모멘텀 증류

이 아이디어는 웹에서 크롤링된 picture-text-to-Chinese 텍스트를 기반으로 하며 그림을 완전히 설명하지는 않습니다.

모멘텀 모델: 단일 및 다중 모드 인코더의 지수 이동 평균(EMA) 구성

3. 코드

코드 부분은 [논문을 읽고 코드를 본다] Multimodal series-ALBEF 를 참고하세요 . 충분히 상세해서 바퀴를 재발명하지 않겠습니다.

Supongo que te gusta

Origin blog.csdn.net/weixin_50862344/article/details/131213928
Recomendado
Clasificación