beit과 beit2는 여전히 단일 모드 작업입니다. 3세대까지는 다중 모드 작업이 되었습니다. Banxiang은 그것이 beit3인지 확실하지 않습니다... 이 작업은 여전히 그룹의 다른 작업의 그림자를 볼 수 있습니다. 불필요 즉, beit 시리즈는 물론 vlmo 등도 종합적인 작품이라고 볼 수 있다.
육각형 전사
1. 비트 3
1.1 기본 골격: Multiway Transformer
각 레이어에는 시각 전문가와 언어 전문가가 포함됩니다.
마지막 3개 레이어에는 융합 인코더용으로 설계된 시각적 언어 전문가가 있습니다.
1.2 사전 훈련 작업
이전 작업과의 차이점은 세 가지 고전 작업이 포기되고 훈련 작업이 마스크된 데이터 모델링이라는 단 하나뿐이라는 것입니다 . (제목이랑 정말 똑같네요)
(1) 텍스트 데이터
SentencePiece 토크나이저에 의해 플래그 지정됨, 무작위로 15% 차단됨
(2) 이미지 데이터
이미지 데이터는 BEIT v2의 토크나이저에 의해 토큰화되어 이미지 패치의 40%를 마스킹하여 재구성 대상으로 개별 시각적 토큰을 얻습니다.
(3) 이미지-텍스트 쌍
텍스트 마커의 50%와 이미지 블록의 40%를 무작위로 마스킹합니다.
2.코드
2.1 비트3
beit3의 가장 기본적인 코드는 torchscale 라이브러리에 있습니다.
from torchscale.model.BEiT3 import BEiT3