CV의 분야에서 버트 응용 프로그램

AI의 세 가지 핵심 분야 (CV / 음성 / NLP)는 최근 몇 년 동안 큰 진보와 발전을 만들었습니다 있습니다. 그러나 같은도 말 샤오은 또한 가까운 미래 내에서 학습의 깊이가 일반화 및 견고성 문제는 용량 비판하고있다, 일반적으로 AI의 길을 잃었다.

그러나 성공의 최근 사전 교육 모델 덕분에, 크로스 모달 문제 (VQA, 플러그 발언 등)도 더의가 될 것 같다. 사전 훈련에 기초하여 교차 양상 용액은 두 가지, 하나로 나눌 수있다 비디오 언어 BERT 다른 하나는이며,합니다 (BERT으로 비디오 데이터) 비주얼 언어 BERT (픽처 BERT에 화상 데이터). 주요 어려움은 BERT의 틀에 어떻게 비 텍스트 정보입니다. 이 문서에서는 비디오 언어 BERT을 다룹니다.

비디오 화상으로 정의되고, 각각의 재생 그룹 사진으로 알 수있는 프레임 (프레임) . 전형적으로, 제 1 처리 된 영상 데이터로부터 필요한 프레임 X (FPS)에 따라 다음으로 구성되는 N 개의 연속 프레임 영상의 주파수를 추출하고, 단편 (클립)를 그 비디오 중첩 단편을 많이로 절단되지 않도록. 추출 CV 모델 pretrained 기술 (예컨대 ResNet 등)를 이용하여 각 세그먼트 (m 프레임 포함) 클립의 특징 벡터 (시각 정보)를 , 최종 비디오는로 표현되는 특징 벡터 시퀀스 .

 

연속 실수 벡터 자연 벡터는 (실수는 공간에 속하는) 비디오 기능에서이다 추출 및 분리 된 텍스트는 매우 다릅니다. 현재, 비디오 특징 벡터는 다음과 BERT 두 가지 방법으로 주로 주입 :

(1) 파이프 라인 방식 : 실수 이산 벡터 값 및 BERT 모델 토큰 텍스트 정렬에 첨가;

(2) 끝 종료합니다 : 미세 조정 실제 값 벡터를 사용하여 직접 계산에 포함 된 모델 구조 BERT를.

몇 마디의 사람은 작은 저녁 각각 두 개의 논문 아래의 두 가지 방법을 소개했다. BERT 상대적으로 깊은 이해와 지식에 대한 후속 필요성을 읽으십시오. 장소있을 필요가 여기에 , BERT 검토의 간단한 리뷰. 텍스트의 끝뿐만 아니라 계란, ~를 놓치지 마세요

"VideoBERT : 비디오 및 언어 표현 학습을위한 공동 모델"

이 클래식 크로스 모달 표현을 배울 비디오 BERT의 조합입니다. 차례로 이산 클러스터의 방법에 의해 추출 된 영상 특징 벡터의 작업은, 텍스트, 학습 시각적 및 문자 정보에 기초하여 시각적 토큰의 토큰을 증가시킨다.

방법 1

1.1 영상 처리 된 텍스트 데이터 (영상 및 언어 처리)

20 프레임 (20 fps의) 제 2 입력 영상으로부터, 세그먼트 (30)로 이루어진 각각의 제 선택할 영상 처리. 특징 벡터 (치수 1024) 추출 각 클립 ConvNet으로 Pretrained. 그러나, 특징 벡터는 셀 수없는 공간 R ^ (1024)에 속하기 때문이다. 그리고 토큰 텍스트에 해당하는 원래의 작업이 MLM에 BERT를 계속은, 저자는 20736 클러스터 센터의 총을주고, 모든 추출 된 특징 벡터에 클러스터링 계층 K-수단을 사용한다. 시각적 표시로 클러스터 중심은 각 영상 특징 벡터를 중심으로 클래스 특징에 속한다.

텍스트 처리의 경우, 언어 모델이 자신의 문장에 LSTM 기반하여, 추출 텍스트 비디오 기성품 음성 인식 도구 (자동 음성 인식)을 사용합니다. 이후의 처리는 WordPieces 어휘 워드 크기 컷 30,000, BERT 원시을 계속한다.

1.2 입력 형식 (입력 형식)

언어 처리 이전 영상과 시각 정보가 이산 토큰 후 VideoBERT 입력 포맷 만 증가 BERT 오리지널 디자인을 계속 [>] 토큰이 특수 문자 및 영상 토큰을 구별하기 위해 사용되는 토큰.

              

감독 작업에서 1.3 (pretrain)

원래 두 감독 작업에서 BERT :

. (1) cloz E (Cloze) /를 MLM (언어 모델을 마스크) : 마스크 텍스트 토큰의 예측;

(2) NSP (다음 문장 예측) : 예측 연속 상정 두 기간 여부.

첫 번째 작업은 자연스럽게 시각적 토큰을 확장 할 수 있습니다. 초기 시각 토큰을 마스크로 토큰 텍스트와 마찬가지로 토큰 텍스트의 마스크를 사용하지 않고 시각적 마스크의 시각 토큰을 예측 토큰, 그것은 다중 분류 문제, 손실 함수로 사용이 softmax입니다.

두 번째 작업은 NSP에 VideoBERT된다 시퀀스 텍스트 및 영상 시퀀스가 두 개의 동일한 화상에서 추출 된 것인지, 즉, 일치 여부를 예측. 마찬가지로 원래 BERT, 우리는 부정적인 경우, 양극의 경우와 같은 영상 데이터로부터 영상 시퀀스와 같은 다른 영상 시퀀스로부터 비디오 데이터를 추출한다. 그것은 이진 분류 문제입니다. 

1.4 다운 스트림 작업

VideoBERT X는 시각을 나타내는 시퀀스 실제로 두 자기지도 학습 과제 공동 liinguistic 시각적 표현 (분포) p (X, Y)에서, Y는 텍스트 시퀀스를 나타낸다. 공동 분포는 다음과 같은 세 가지 작업에 사용할 수 있습니다 :

(1) 텍스트 투 비디오  : 비디오 텍스트 예측 텍스트에 따른 자동 션 방법. 

       

(2) 비디오 - 텍스트 :  영상 예측 텍스트, 비디오 요약의 자동 생성.

(하나의 모드를 사용) (3) 단봉 방식 : 텍스트 또는 비디오 분배를 사용하여 가장자리 상하 예측 방법. 텍스트는 우리가 언어 모델, 우리가 이전의 비디오 콘텐츠에 따라 나중에 일어날 일에 예측할 수있는 영상의 경우와 매우 잘 알고 있다는 것입니다.

              

실험 2

실제 문서는 교차 양상 공동 표현 학습의 두 개의 다운 스트림 작업의 유효성을 확인하기 위해 설계되었습니다.

2.1 사진 이야기      

비디오 및 고정 템플릿은 "지금 내가하는 방법을 보여 드리죠  [마스크] [영역]," 키워드 오프 마스크 예측 (동사와 이름을) . 다음도 표시 질적 세 가지 예 각각 예를 보여주는 두 개의 세그먼트들의 비디오 클래스 센터, 예측 가기 동사와 명사.

                    

다른 방법의 효과에 대한 작업의 데이터 테이블의 양적 비교. S3D는 감독의 고전적인 모델입니다 S3D 모델 외에 감시 신호 (훈련하는 데 사용되지 않은, ZERO-SHOT 분류, 사전 훈련 모델의 직접 사용 ). BERT는 (언어 이전에) 원래 BERT의 직접 사용을 나타냅니다, VideoBERT는 (언어 이전)는, VideoBERT (크로스 모달) 완전한 모델 배울 수있는 텍스트 데이터를 추출 및 결합 비디오 및 텍스트 데이터에 기초하여 원래의 BERT 비디오 데이터의 증가를 의미 학습. 비교 실험 결과는 최상위 5 효과 세 종류의 개선 BERT 세트 유효성 및 복합 데이터의 유효성, 마지막 제로 - 샷 VideoBERT (크로스 모달)의 정확성을 알 수있다 달성 될 수 있고, S3D 유사한 효과를 학습 감독. 상위 1의 모든 종류의 결과에 대한 이유는 적은 BERT BERT 단어 조각 컷 단어 기반 분류의 약간 오히려 정확히 일치보다는 의미의 정확성에 초점을 오픈 vocablary에 더 도움이되는 것입니다.   

2.2 영상 자막

저자는 특징 추출 등의 유효 VideoBERT을 확인하는 작업을 사용합니다. 모델의 입력 기능하는 것을 제외하고, 동일한 트랜스포머 인코더 - 디코더 모델 생성 비디오 요약을 사용.

(1) 상기 추출 S3D 기능 (기준)을 사용하여

(2) 상기 추출 된 특징을 이용 VideoBERT

(3) VideoBERT 기능을 접합 S3D 기능 (강한 브랜드)

       

             

우리는 더 선명하고 구체적인 생성 자세히 질적 사용하여 비디오 자막 내용 VideoBERT 기능의 예에서 볼 수 있습니다. 정량적 지표에서 VideoBERT + S3D 크게 다운 스트림 작업 비디오 자막을 개선 최선의 결과를, VideoBERT이 기능을 배울 달성했다.   

"학습 비디오 표현은 대조적 양방향 변압기를 사용"

이전 작품을 읽고, 작은 파트너가 의심의 여지가있을 수 있습니다, 실제 값 연속 특징 벡터 (시각 기능)이 정규 수업 센터를 클러스터링에 의해 제한됩니다, 당신은 비디오 정보에 포함 된 세부 사항을 많이 잃게됩니다 그것은 (⊙⊙)? 따라서이 문서는 미세 조정하여 모델 알고리즘의 BERT의 여러 양상을 시각적 기능의 분리형하지만 실수 벡터 시각적 기능을 직접 사용을 더 이상 사용하지 클러스터 연속 실제 가치 것입니다.

방법 1

              

첫째, 모델에 파노라마 점선 위의 미세 조정의 점선 다운 스트림 작업 아래 pretrain 단계입니다. 회색 상자는 일반 텍스트 데이터 모델 및 사전 교육 BERT 수정을 나타냅니다. 화이트 박스 CBT 비디오 데이터 모델을 pretraining 순수한 검은 선을 나타내고, 사용 빨간 선 부분 복합 데이터 사전 교육을받은 두 개의 전면의 크로스 모달 변압기 조합. 당신이 아래의 작은 저녁에 하나 하나 공개 ~ ~ ~ 각 부분

BERT 모델 1.1 일반 텍스트

감독 작업 또는 원시 BERT 이후 MLM 주변 텍스트의 사용을 마스크하지 예측이 토큰, 임의 마스크 텍스트입니다.

             

YT 올바른 토큰 마스크이다되고, 제거되고, 마스크 오프 YT YT 텍스트 시퀀스를 나타낸다. 이 MLM 손실 함수가 제대로 예측 YT YT가의 가능성을 극대화하는 사실이다. 다음과 같이 그러나 여기 확률 예측 YT의 YT가 정의됩니다.

             

어느 특징 변압기를 통해 얻어진다. 최적화의 목표는 것입니다 마스크 단어 순서 YT 및 유사 YT (선상)를 내장의 진정한 표현 될 .

원래의 BERT BERT 대신 확률이 softmax의 내적 연산의 형태의 것을 제외하고는 본질적으로 동일했다. 모델 구조의 작은 변화 모델링 비주얼 에코 백 부분은 매우 고급이다.

1.2 비주얼 CBT 모델

감독 업무 비디오 MLM 모델로부터 데이터를 기준으로도 완벽하지만, 시각적 기능은 연속 실수 벡터를하기 때문에, 저자는 사용 NCE (소음 대조적 평가) 손실 :

             

             

비교 위의 확률 BERT의 정의 및 NCE의 정의는 슈퍼처럼되지 않습니다! ????    

 BERT는 시각적 출력을 통해 영상 시퀀스 마스크이다. 셀 수없는 시각적 특성 때문에, 텍스트 부분을 제외 마이너스 샘플로서 음성 시료 예 모든 실시 예를 총망라하지 등을들 수있다. 목표 최적화하는 유사한 기능 등이 XT 및 시각의 진정한 표현 마스크 XT 시각적 시퀀스.

     

교차 양상의 1.3 모델 CBT

(비디오 토큰으로부터 추출 된 ASR을 이용하여 텍스트로서 X = X1이라 텍스트 : 두 비디오 모듈에서 단일 모드 앞에 도입 (T 시각적 특징으로부터 추출 된 비디오는, Y는 Y1을 = 라 함) : T)는 데이터 대응 관계 사이에 연구와 함께 ~ ~ 크로스 모달 CBT 모듈 친구에 멀티 모달 상호 작용을 나타냅니다

각 프레임 (있는 시각 기능 y를 비디오의 같은 기간 X 텍스트 만도 교육용 비디오, 비록 프레임 레벨) 우리가 강요 모델 XT 또는 XT에 의해 YT YT 전망을 예측할 수 없습니다 수 있도록 정확하게 일치하지 않습니다. 당신 만이 그들에게 필요 레벨 순서에 존재할 수있는 관계를 해당 (x 및 y를 예측할 수있는 이야기 모델) . 같은 NCE 손실을 사용 :

             

             

X 및 Y는 시각적 CBT 및 BERT 모델에 의해 계산 된 각을 나타낸다.

             

             

상호 작용 모달 변압기 계산 표현으로 , 얕은 MLP로 X와 Y 사이에서 상호 정보 . 유사 최적화 목표 및 두 앞 작은 상호 정보의 대형 음극 예의 포지티브 예 간의 교차 (X, Y) 정보 (X, Y '). 

1.4 전체 모델

전체 모델은 세 가지의 통합 된 부분입니다. 입력의 세 부분 약간 다른 있지만, 그러나 알고리즘은 매우 일관성이 대칭은 매우 완벽한와 함께입니다.

             

실험 2

2.1 행동 인식

하류 작업으로 시각적 representaions 동작 인식의 유효성을 확인합니다. 테이블 대조 pretrain 전략 (셔플 및 학습과 3DRotNet) 및 임의의 초기 기준선, 2 개의 데이터 셋 (UCF101 및 HMDB51)를 모두 수정 방법 및 세부적으로 조정 기능의 사용 효과 다음 떠났다. 실험 결과는 본 논문에서 시각 CBT 모델의 효과를 보여줍니다. 오른쪽은 테이블 및 감독 비교의 첨단 다양한 모델이며, CBT 모델은 이러한 모델보다 직접적으로 매우 중요한 업그레이드를 가지고있다.

       

2.2 동작 기대 

제는 세 가지 다른 데이터 세트 아침 식사 세트의 50Salads 데이터 세트와 ActivityNet 200 데이터 세트를 사용합니다. 예상 작업은 단순히 비디오와 같은 멀티 분류 작업을 기반으로 간주 될 수있는 행동을 이해하지 마십시오. 이 실험에서, 저자뿐만 아니라 입증 CBT 방법은 기존의 방법보다 더 나은,하지만 긴 비디오 좋은 표현 능력을 가지고에도 CBT를 증명한다.

              

좌측 표에서는 다른 방법 자체 슈퍼 = Y를 나타내고, (매우 납득 세 실험 데이터를 배치)에 같은 우수한 여러 다른 방법과 CBT, CBT 세 작업 비교 pretrain-세부적으로 조정 방법, 자기 초 = N을 사용하는 방법은 모드 종단 교육임을 나타낸다.

오른쪽에 테이블은 다른 비디오 효과, 다른 모델의 길이를 비교한다. 비디오의 길이는 CBT 효과가 좋아지고되면서 훨씬 더 나은 다른 두보다 3 개 머신에서 CBT 데이터는 일관성있는 기준 (AvgPool 및 LSTM), 및 증가입니다. 일반 모델은 긴 같은 테이블, 두 가지 기본 방법으로 긴 텍스트 또는 비디오 실패에 수 있지만 길이 제한. CBT 될 수 있지만, 더 긴 영상에서 효과가 좋은이되도록 모델의 더 나은 표현을 배웠습니다. (스리랑카 국가! ????)

2.3 다른 비디오 작업

       

이 문서는 또한 비디오 자막이 두 작업의 작업 분할을 비교, VideoBERT에 비해 CBT는 이전에도 비디오 자막에 개선 언급,이 클러스터링 단계는 이제 정보 문제의 손실을 최적화하는 것입니다 향상시킬 수 있습니다.

 

달걀 [이다] ????

번호 무대 응답 [공개] videoBERT GET을 사용하면 원본 용지 (읽는 동안 자신의 노트 저녁 학교 오)

참고 노트는 논문, 간단한 읽기 ~~

 

게시 33 개 원래 기사 · 원의 칭찬 0 · 조회수 3271

추천

출처blog.csdn.net/xixiaoyaoww/article/details/104623997