멀티 모달 재발 신경망 깊은 캡션 (m-RNN)

  • 저자는 봉형 재발 성 뉴럴 네트워크를 제안 (AlexNet / VGGNet + + 다중 층 RNN), CNN으로 추출하는 화상 특징, 두 층의 RNN에 단어 입력, 마지막 워드 기능, 화상 특징 후 워드 및 RNN 함께 확률 분포를 통해, 멀티 모달 입력을 숨겨진 층은 소프트 맥스 워드를 생성. RNN은 주로 이전 문장을 보존하기 위해 특징으로한다.
    • 이 임베딩을 추가, 조밀 한 효과적인 학습 단어의 단일 층 이상을 나타냅니다
    • 또한 저장된 영상 정보 층을 사용하지 않는다
    • 문장에 설명 된 이미지 기능은 m-RNN 각 단어 모델에 입력

핵심

  • 대부분의 문장 - 이미지 멀티 모드는 대조적으로, 그 모델에 내장 초기화 벡터 등의 단어를 사용하여 미리 계산은 무작위로 포함 된 층의 초기화 및 그들의 말 그들은 훈련 데이터로부터 배우고있다. 실험 나은
  • 데이터 세트의 교차 확인하여 Flickr8K 동조하고 모든 실험에 고정 (예를 들면 사이즈 선택 층과 비선형 활성화 함수와 같은) 매개 초.
  • 이전 연구 : 한 화상 검색 태스크, 제 문장 공통 시맨틱 공간에 매립되는 화상 특징 추출과 같은 처리는, 화상과 문장 사이의 거리를 계산한다. 이미지를 생성 할 때 설명한 바와 같이, 문장 문장 데이터베이스로부터 검색된 최소 거리. 이 방법은 자동으로 풍부한 설명을 생성 할 수 없습니다
  • 벤치 마크 데이터 세트 이미지 자막에 대한 : IAPR TC-12 (Grubinger 등의 알 (2006).), Flickr8K (Rashtchian 등 (2010)을 참조하십시오.) Flickr30K 과 (영 외 (2014).) MS 코코 (린 등 (. 2014)).

모델

  1. 워드, 두 층을 매립 벡터 표현을 생성하여 입력 워드 조밀 \ (W (T) \) \ (W (T) \) 동시 모드의 RNN 및 전송
  2. RNN은 변환을 완료 한 (U_r \ {R & LT CDOT. (1-T) + W (T)}) \으로 R & LT (T) = F_2 (다이오드) \ [공식] , [공식]은 IS \ (T \) 의 출력 타이밍 루프 층 \ (F_2 \) ReLU의 함수
  3. 오른쪽 녹색 상자에 입력 이미지는 CNN 후 특징 벡터를 생성하는 \합니다 (I \) , \ 합니다 (I \) 및 입력 함께 복합을. 변환 봉형 이루어진다 \ (m (T) = G_2 (V_m \ CDOT {W (T) + V_r \ {R & LT CDOT (T)} +는 I}) \) , CDOT를 \ (G_2 (X) = 1.7159 \ { TANH (\ FRAC {2} { 3} X)} \)
  4. \ (m (t) \) 입력 층 생성 softmax를 확률 분포. 이 시점에서, 입력 단어는 다음 단어를 생성하는

추천

출처www.cnblogs.com/doragd/p/11373469.html