【论文笔记】BEIT 3 ——외국어로서의 이미지: 모든 비전 및 비전 언어 작업을 위한 BEIT 사전 훈련

beit과 beit2는 여전히 단일 모드 작업입니다. 3세대까지는 다중 모드 작업이 되었습니다. Banxiang은 그것이 beit3인지 확실하지 않습니다... 이 작업은 여전히 ​​그룹의 다른 작업의 그림자를 볼 수 있습니다. 불필요 즉, beit 시리즈는 물론 vlmo 등도 종합적인 작품이라고 볼 수 있다.

육각형 전사 

1. 비트 3 

1.1 기본 골격: Multiway Transformer

각 레이어에는 시각 전문가와 언어 전문가가 포함됩니다.

마지막 3개 레이어에는 융합 인코더용으로 설계된 시각적 언어 전문가가 있습니다.

 1.2 사전 훈련 작업

이전 작업과의 차이점은 세 가지 고전 작업이 포기되고 훈련 작업이 마스크된 데이터 모델링이라는 단 하나뿐이라는 것입니다 . (제목이랑 정말 똑같네요)

(1) 텍스트 데이터

SentencePiece 토크나이저에 의해 플래그 지정됨, 무작위로 15% 차단됨

(2) 이미지 데이터

이미지 데이터는 BEIT v2의 토크나이저에 의해 토큰화되어 이미지 패치의 40%를 마스킹하여 재구성 대상으로 개별 시각적 토큰을 얻습니다.

(3) 이미지-텍스트 쌍

텍스트 마커의 50%와 이미지 블록의 40%를 무작위로 마스킹합니다.

2.코드

2.1 비트3

beit3의 가장 기본적인 코드는 torchscale 라이브러리에 있습니다.

from torchscale.model.BEiT3 import BEiT3

 

Supongo que te gusta

Origin blog.csdn.net/weixin_50862344/article/details/131384233
Recomendado
Clasificación