0. 서문
[참고] Multimodal Dissertation Lectures
2021년 이전의 연구에 따르면 몇 가지 큰 추세가 있습니다.
(1) 모델의 시각적 능력이 텍스트 추출 능력보다 강해야 함
(2) 모델 융합은 단순한 내적 연산(클립)이 아닌 보다 복잡한 설계를 가져야 합니다.
(3) 손실함수 선택 : ① ITC ② MLM ③ ITM
WPA 손실 함수를 포기하는 이유는 훈련에 상대적으로 많은 비용이 들기 때문입니다. (빌트 참조)
1. 소개
1.1 과제
(1) 이미지 피처와 단어 토큰 임베딩은 자체 공간에 존재하며, 둘 사이의 관계를 모델링하기 어렵습니다.
(2) 객체 감지기 라벨링 및 계산 비용이 너무 높음
(3) ALT 데이터셋의 노이즈가 학습에 영향을 미침(웹에서 크롤링되는 대부분의 데이터셋은 주로 키워드이므로 잘 설명할 수 없음)
1.2 이 논문의 핵심 기여
- 제안된 ALign BEfore Fuse(ALBEF)
- 제안된 모멘텀 증류(MoD)
2. 알베프
2.1 모델 아키텍처
- Visual Encoder: 12단 VIT 기반 사용
- 텍스트 인코더: BERTbase[40] 모델의 처음 6개 계층
- 멀티모달 인코더: BERTbase의 마지막 6계층
VILT를 통한 이미지
2.2 사전 훈련을 위한 세 가지 손실 함수
단일 모드 인코더에 대한 이미지-텍스트 대조 학습(ITC), 다중 모드 인코더에 대한 MLM(마스킹된 언어 모델링) 및 ITM(이미지-텍스트 매칭).
2.2.1 이미지-텍스트 대조 학습(ITC)
일반 소프트맥스:
이 백서의 소프트맥스:
이 논문은 학습 가능한 온도 매개변수 T를 소개합니다.
원-핫 분포의 이미지 텍스트 유사도와 소프트맥스 유사도를 통한 교차 엔트로피 측정값 획득
2.2.2 마스킹된 언어 모델링(MLM)
고전적인 버트 훈련 방법. 입력 토큰은 15%의 확률로 무작위로 마스킹되기 때문에 여기서 두 번째 전달 패스가 필요합니다.
2.2.3 이미지-텍스트 일치(ITM)
교육을 위한 계산 오버헤드가 없는 ITM 작업에 대해 하드 부정 데이터를 샘플링하는 전략이 제안됩니다. 이미지(또는 텍스트)와 유사성이 높은 텍스트(또는 이미지)를 샘플링하기 위해 이미지-텍스트 대조 학습에서 얻은 Softmax 유사성을 사용합니다. ).
2.3 모멘텀 증류 모멘텀 증류
이 아이디어는 웹에서 크롤링된 picture-text-to-Chinese 텍스트를 기반으로 하며 그림을 완전히 설명하지는 않습니다.
모멘텀 모델: 단일 및 다중 모드 인코더의 지수 이동 평균(EMA) 구성
3. 코드
코드 부분은 [논문을 읽고 코드를 본다] Multimodal series-ALBEF 를 참고하세요 . 충분히 상세해서 바퀴를 재발명하지 않겠습니다.