교차 모달 검색 논문 읽기: 이산-연속 동작 공간 정책 이미지-텍스트 매칭을 위한 그라데이션 기반 주의

이산-연속 행동 공간 정책 이미지-텍스트 매칭을 위한 기울기 기반 주의이미지-
텍스트 매칭을 위한 기울기 기반 주의 기반 이산-연속 행동 공간 정책

기존의 교차 모달 이미지 및 텍스트 검색 방법은 서로 다른 양식을 공통 공간으로 명시적으로 변환하지 않습니다. 동시에, 이미지-텍스트 매칭 모델에서 널리 사용되는 주의 메커니즘에는 감독 기능이 없습니다. 우리는 이미지와 텍스트 임베딩을 공통 공간에 투영하고 평가 지표를 기반으로 Attention 가중치를 직접 최적화하는 새로운 Attention 방식을 제안합니다. 제안된 어텐션 방식은 추가적인 주석이 없는 일종의 지도된 어텐션(supervised attention)으로 간주될 수 있습니다. 이는 이전의 연속 행동 공간 정책 경사 알고리즘보다 복잡한 행동 공간을 시뮬레이션하는 데 더 효율적인 새로운 이산-연속 행동 공간 정책 경사 알고리즘으로 훈련됩니다. 우리는 널리 사용되는 두 가지 벤치마크 데이터 세트인 Flickr30k 및 MS-COCO에서 제안된 방법을 평가했으며 결과는 이러한 방법이 이전 방법보다 훨씬 뛰어난 것으로 나타났습니다.

소개

메트릭 학습은 도메인 차이에 관계없이 샘플 간의 유사성을 측정하고 처리하려고 시도하기 때문에 시각적 의미 임베딩에서 매우 강력합니다. 그러나 한 양식에서 다른 양식으로 명시적으로 변환하도록 설계되지 않았으므로 종종 차선의 성능이 발생합니다. 인스턴스 손실(Instance Loss)을 적용하는 방법, 즉 이미지와 텍스트의 카테고리를 분류하여 이미지-텍스트 매칭 메트릭 학습 손실을 갖는 다중 작업 학습 방법을 형성하는 방법도 있지만, 카테고리 영역에서의 인스턴스 손실 최적화로 인해 Embedding 이며 명시적인 변환이 수행되지 않으므로 성능 향상이 제한됩니다. 이미지에는 세밀한 개체가 많이 포함되어 있는 경우가 많습니다. ResNet과 같은 일반적인 심층 CNN 모델의 평면 벡터 표현은 이러한 개체와 해당 관계를 발견하는 데 충분하지 않습니다. 따라서 고급 방법은 사전 훈련된 객체 감지기의 이미지 특징을 사용하고 이러한 특징에 시각적 주의 메커니즘을 적용하여 중요한 특징과 관련 없는 특징을 구별합니다. 어텐션 메커니즘은 다양한 컴퓨터 비전 작업에서 중요한 역할을 합니다. 이러한 모델에서 주의 메커니즘은 숨겨진 뉴런으로 처리되지만 직접적인 감독이 부족하여 잘못된 이미지 특징 선택으로 이어지는 경우가 많습니다.

이미지-텍스트 매칭에서 Attention 메커니즘을 명시적으로 변환하고 감독하기 위해 본 논문에서는 이미지-텍스트 매칭에서 시각적 특징과 텍스트 특징의 Attention 조정을 위한 PG( Policy Gradient ) 최적화 방법을 제안합니다. 우리의 접근 방식에서 어텐션 가중치는 딥러닝 모델의 앞부분이 아닌 매칭에 사용된 마지막 이미지와 텍스트 벡터에서 벡터 변환을 수행하기 때문에 어텐션 가중치는 특정 양식에서 공통 공간으로의 변환으로 볼 수 있습니다. .여러 레이어 중에서 중요한 기능을 선택합니다. 어텐션 가중치는 배치 순위 지표와 인스턴스 평균 정밀도(AP)를 보상 함수로 사용하여 PG 방법으로 훈련됩니다. 이러한 관심 가중치는 최고의 순위 결과와 더 높은 AP 지표를 얻기 위해 PG 알고리즘에 의해 직접 최적화됩니다. 이는 감독된 주의 메커니즘으로 볼 수 있으며 이 감독에는 추가 주석이 필요하지 않습니다. 이 PG 기반 주의 메커니즘은 간단하고 명확하며 평가 지표를 최적화할 수 있습니다. 이는 평범한 뉴런인 기존의 소프트 어텐션보다 더 정확합니다.
여기에 이미지 설명을 삽입하세요.
그림 1: 동기 부여: 주의 가중치는 각 양식에서 공통 공간으로의 투영입니다. 기존 연속형 PG는 단순 정규분포를 가정합니다. 대신, 먼저 평균을 이산적 행동으로 처리한 다음 여러 정규 분포를 사용하여 보다 현실적인 복합 분포를 형성합니다.

보다 구체적으로 그림 1에서 볼 수 있듯이 주의 가중치 생성을 공간을 유연하게 사전 설정할 수 있는 PG의 작업 선택 프로세스로 간주합니다. 기존 PG의 작업 공간은 분리되어 있으며 어텐션 메커니즘과 같은 기능 조정에 적합하지 않습니다. 한 가지 해결책은 연속적인 행동 공간 PG 알고리즘을 적용하는 것입니다. 이는 행동 공간을 가우스 분포로 처리하고 이 분포에서 행동 값을 샘플링합니다. 동작 분포를 정규 분포로 제한하는 것은 최적이 아니며 이 가정은 이론적, 실제적 뒷받침이 부족합니다. 실제로 행동공간의 분포는 매우 복잡할 수 있으며 단순한 정규분포로는 설명할 수 없습니다. 따라서 우리는 행동이 연속적이라고 생각하고 평균(μ)과 표준 편차(σ)가 다른 여러 정규 분포에서 샘플링합니다. 우리는 먼저 μ를 미리 정의된 행동 공간에서 샘플링된 이산 행동으로 취급하고, σ는 연속적이기 때문에 신경 모델에서 얻습니다. 우리는 μ와 σ를 활용하여 정규 분포를 형성하고 이 분포에서 연속적인 동작 샘플을 추출하여 시각적 임베딩과 텍스트 임베딩의 특징 표현을 조정하기 위한 주의 가중치로 사용하기를 희망합니다. 일반적으로 전통적인 PG에서는 그래디언트를 로그 확률로 역전파하기만 하면 되므로 훈련 가능하게 하기 위해 μ가 필요하지 않습니다. 대조적으로, 이 경우 결과 정규 분포는 정규 분포를 학습 가능하게 만들기 위해 역전파되어야 합니다. 샘플링은 μ를 얻는 데 관여하므로 현재 형태로는 훈련할 수 없습니다. μ를 미분 가능하게 만들기 위해 탐욕스러운 샘플링이나 ∈-탐욕적인 샘플링을 직접 사용하지 않습니다. 우리는 Gumbel-softmax를 사용하여 이산성을 완화하고 샘플링된 μ를 정규 분포로 훈련 가능하게 만듭니다. 우리는 이 접근 방식을 "이산-연속 PG"라고 부릅니다. 왜냐하면 이 접근 방식은 이산 및 연속 작업 공간을 모두 포함하여 두 가지가 서로 이익을 얻을 수 있기 때문입니다. 실제로, 이산적이고 연속적인 행동 공간을 사용하여 주의 가중치를 샘플링하는 데 사용되는 행동 공간은 복잡도가 높은 분포를 시뮬레이션할 수 있는 복합 분포입니다.

기여하다

우리는 이미지-텍스트 일치 작업에 대한 알고리즘과 모델을 평가하고 널리 사용되는 두 가지 벤치마크 데이터 세트에서 최첨단 성능을 달성합니다. 요약하자면, 우리의 기여는 세 가지입니다:
(1) 이미지-텍스트 매칭 작업에 대한 정책 기울기를 기반으로 하는 새로운 주의 감독 체계를 제안합니다.
(2) 이산적이고 연속적인 행동 공간을 이용한 새로운 이산-연속 정책 경사 알고리즘을 제안한다.
(3) 얻은 고급 결과는 주의 감독 체계와 새로운 정책 그라데이션 알고리즘의 효율성을 검증합니다.

관련된 일

이미지-텍스트 일치

Frome et al.[6]은 CNN과 Skip-Gram을 통해 교차 모달 매칭을 위한 특징 임베딩 방법을 제안했습니다. 그들은 또한 유사한 쌍 사이의 거리를 측정하기 위해 순위 손실을 활용했습니다. "VSE++: Improving Visual-Semantic Embeddings with hard negatives. In BMVC, 2018"의 연구에서는 삼중 손실의 하드 네거티브 마이닝에 중점을 두고 결과가 개선되었습니다. Zheng et al.[37]은 많은 범주에 걸쳐 인스턴스 손실을 사용했습니다. 그들은 인스턴스 손실이 이미지-텍스트 일치에 도움이 된다는 것을 발견했습니다. Gu et al.[8]은 생성 모델을 연구하여 교차 모드 문제를 개선했습니다. Li 등[19]은 그래프 신경망과 이미지 캡션 손실을 이용한 시각적 의미 추론 프레임워크를 제안했습니다. 이 시각적 의미 추론 모델은 이미지 특징의 의미 관계를 추론할 수 있으며 좋은 성능을 가지고 있습니다.

주의 메커니즘

시각적 주의 메커니즘[35]은 다양한 컴퓨터 비전 응용 분야에서 널리 사용되었습니다. 그 중 상향식 주의 모델 "Bottom-up and top-down attention for image captioning and 시각적 질문 답변. CVPR, 2018."은 현재 이미지 캡션, 시각적 질문 답변 및 이미지-텍스트 매칭의 주류입니다. 그러나 감독된 주의에 관한 연구는 많지 않습니다. Gan et al.[7]은 주의 주석을 사용하여 시각적 질문 답변을 위한 지도 주의 방식을 제안했습니다. Kamigaito 등[13]도 자연어 처리 작업에서 주의를 감독하기 위해 주의 주석을 사용했습니다. 대신, 우리는 Attention 모듈이 특정 목표(예: AP)를 향해 직접 최적화할 수 있는 강화 학습 기반 지도 주의 메커니즘을 제안합니다. 또한 제안된 주의 모듈에는 추가 주석이 필요하지 않습니다.

연속 행동 공간 정책 변화도

연속 제어 문제에 대한 연구는 오랜 역사를 가지고 있습니다. 예를 들어, Lillicrap et al.[20]은 연속적인 행동 공간을 고려하여 깊은 결정론적 정책 기울기를 제안했습니다. 이전 연구에서는 이산적 행동 공간과 연속적 행동 공간 사이의 관계를 활용했습니다. 예를 들어, Dulacc-Arnold 등[3]은 기본 연속 동작 공간의 연속성을 활용하여 이산 동작으로 일반화합니다. Pazis et al.[27]은 이진 이산 동작 공간을 사용하여 연속 제어 문제를 이산 제어 문제로 변환했습니다. Tang 등의 연구[31]는 연속 제어의 행동 공간을 이산화하는 것이 간단하고 강력한 전략 최적화 기술임을 보여줍니다. 또한 정책 최적화를 위해 개별적이고 연속적인 행동 공간을 결합하는 것도 고려합니다. 우리는 복합 분포가 엄격하게 가정된 정규 분포보다 우수한 성능을 보인다는 것을 보여줍니다.

제안된 방법

우리의 목표는 생성된 시각적 및 텍스트 기능을 조정하여 이미지-텍스트 일치를 촉진하는 것입니다. 우리는 먼저 이미지 캡션 및 시각적 질문 답변을 위해 상향식 및 하향식 관심에 그래프 컨벌루션 신경망 [34]을 적용합니다. CVPR, 2018. 시각적 의미와 일치하는 이미지의 특징 추론 네트워크(VSRN) "이미지-텍스트 매칭을 위한 시각적 의미론적 추론. ICCV, 2019."도 비슷합니다. 시각적 특징을 얻은 후 이산-연속 행동 공간 PG를 사용하여 시각적 특징을 조정하기 위한 주의 가중치를 생성합니다. 마찬가지로, 텍스트 특징도 이산-연속 PG를 기반으로 하는 주의 메커니즘을 통해 조정됩니다. 획득된 이미지 및 텍스트 임베딩은 삼중 손실, 인스턴스 손실 및 텍스트 디코딩 손실을 포함한 다중 작업 손실로 훈련됩니다. 이 방법의 개략도는 그림 2에 나와 있습니다.

이미지 및 텍스트 특징 추출

GCN은 이미지 영역 특징 추론에 사용됩니다. 우리가 채택한 GCN 모델은 VSRN 방법과 유사합니다. 특히, 이미지 영역 특징 간의 의미 관계는 쌍별 친화도로 측정됩니다.
여기에 이미지 설명을 삽입하세요.

그 중 Fi와 Fj는 Faster R-CNN detector를 통해 얻은 2개의 상향식 이미지 영역 특징입니다. Ei와 Ej는 역전파를 통해 학습할 수 있는 임베딩 함수(일반적으로 행렬 곱셈)입니다. 그런 다음 완전히 연결된 관계 그래프 G r = (V, E)를 구성합니다. V는 검출된 이미지 영역 특징 세트이고 E는 에지 세트입니다. 여기서 각 에지는 방정식 1과 같이 관계 행렬 Relation(Fi , F j )으로 설명 됩니다 . 우리는 완전히 연결된 그래프에서 추론을 수행하기 위해 GCN을 적용합니다. GCN 추론의 출력은 Image = {I 1 , …, I t , …, I T }로 표현됩니다.
텍스트 임베딩 : w로 표현되는 원-핫 텍스트 표현이 주어지면 선형 단어 임베딩 레이어가 구성되어 We = {w1 e, …, wi e, …, wN e}로 표현되는 단어 표현을 얻습니다. 여기서 wi e= 단어 임베딩(wi).

제안된 이산-연속 행동 공간 PG

PG는 일반적으로 두 가지 이유로 이산 동작 공간을 사용합니다. 많은 제어 문제가 이산 동작 공간에서 모델링되고 복잡한 동작 분포를 시뮬레이션할 수 있으므로 성능이 더 높습니다. 그러나 연속적인 행동 공간 제어 문제에 직면하면 이에 상응하는 PG 알고리즘을 개발해야 합니다. 그러나 앞서 언급했듯이 연속 행동 공간 PG는 일반적으로 행동이 너무 엄격한 정규 분포를 따른다고 가정합니다. 실제 분포를 더 잘 시뮬레이션하는 복합 분포에서 연속 동작을 샘플링하는 방법을 제안합니다.

이산 행동 샘플링 : 그림 2에서 볼 수 있듯이 먼저 주의 가중치 생성 프로세스를 유한 마르코프 결정 프로세스(MDP)로 모델링한 다음 다중 포크 샘플링 방법을 사용하여 이산 행동을 샘플링합니다. n개의 행동 범주(예: A = {a1, a2,…,an})를 정의하고 상태 공간에는 지금까지 생성된 입력 영역 기능과 주의 가중치(예: st = {I0, Att0…, It-1, Att)가 포함됩니다. -1}. 정책은 GRU 모델을 통해 매개변수화되어 환경과 샘플 작업을 탐색합니다. 더 공식적으로
여기에 이미지 설명을 삽입하세요.
말하면, GCN 추론 후 t번째 이미지 특징입니다. GRUmdp는 주의 가중치 생성 문제를 MDP로 모델링하기 위한 GRU(Gated Recurrent Unit)입니다. W t μ∈ Rs×n은 학습해야 할 가중치입니다. S는 특징 벡터의 크기입니다. Atg는 Gumbel-sof tmax 활성화 후 각 행동의 확률입니다.
여기에 이미지 설명을 삽입하세요.
그 중 W std ∈ R s×1 은 학습이 필요한 가중치이다.
여기에 이미지 설명을 삽입하세요.

그림 2: 제안된 방법의 개략도: 이미지와 텍스트가 모델로 전송됩니다. 추출된 이미지 특징은 먼저 GCN 모델을 통해 처리되어 의미 관계를 추론합니다. 그런 다음 지역적 특징을 제안된 이산-연속 PG 알고리즘에 입력하여 어텐션 맵을 생성하고 이를 적용하여 지역적 특징을 조정하고 융합한다. 마찬가지로, 텍스트 임베딩도 이산-연속 PG 알고리즘에 의해 생성된 주의 지도를 통해 조정됩니다. 그런 다음 최종 이미지와 텍스트 임베딩은 훈련을 위한 메트릭 학습 손실, 이산 PG 손실 및 연속 PG 손실과 연결됩니다.

연속 작업 샘플링 : 샘플링된 μ 및 σ는 다음과 같이 설명되는 정규 분포를 형성합니다.
여기에 이미지 설명을 삽입하세요.
여기서 Att t 는 이 정규 분포에서 샘플링된 주의 가중치입니다. 이 정규 분포의 로그 확률은 다음과 같이 표현됩니다.
여기에 이미지 설명을 삽입하세요.
이산 PG 최적화 : 단순성과 효율성을 위해 PG를 온라인 학습 방법, 특히 REINFORCE 알고리즘으로 공식화합니다. 이산 행동 공간의 PG는 장기 보상을 최대화하는 것이며 표현은 다음과 같습니다.
여기에 이미지 설명을 삽입하세요.
Monte-Carlo 일회성 샘플링을 사용하여 누적 보상을 추정합니다. 즉, 여기에 이미지 설명을 삽입하세요.R은 보상이며, 이는 다음과 같습니다. 나중에 정의됩니다. 또한, log π θ (a t | s t ) = logprob t a 이며, 수학식 2로 주어진다. 따라서 방정식 6은 다음과 같은 PG 손실 함수로 이어집니다.
여기에 이미지 설명을 삽입하세요.
여기서 B는 각 미니 배치의 크기입니다. 오른쪽의 음수 기호는 손실을 최소화하여 R을 최대화한다는 의미입니다.

연속 PG 최적화 : 방정식 5는 정규 분포의 로그 확률에 대한 간단한 정의를 제공합니다. 마찬가지로 연속 행동 공간에 대한 PG 손실은 다음과 같습니다.
여기에 이미지 설명을 삽입하세요.
보상 함수 공식 : 보상 신호는 PG 방법의 원래 목표인 주의 생성 프로세스를 안내할 수 있기 때문에 매우 중요합니다. 보상 신호는 R@K 및 평균 정밀도(AP)를 사용한 이미지 및 텍스트 임베딩의 온라인 평가에서 비롯됩니다. 구체적으로, 우리는 각 샘플을 카테고리로 처리하고 샘플 배치에서 온라인으로 R@1 및 AP를 계산합니다. 따라서 후속 신호는 R@1과 AP 결과의 선형 조합으로 표현될 수 있습니다.
여기에 이미지 설명을 삽입하세요.
그런 다음 이 보상을 사용하여 제안된 PG 알고리즘을 안내하여 주의 가중치를 생성하여 이미지-텍스트 일치 작업에 대한 이미지 및 텍스트 특징을 자동으로 조정합니다. 더 효과적인 임베딩. 분산을 더욱 줄이고 PG 훈련을 보다 안정적으로 만들기 위해 PG 기준선을 추가로 적용합니다. 이는 인스턴스 배치에 있는 다른 모든 인스턴스의 평균 보상입니다. 여기서 K는 배치 크기이고 b k는
여기에 이미지 설명을 삽입하세요.
k 입니다 . 번째 인스턴스 기준, Rj는 j 번째 인스턴스에 대한 보상입니다. 우리는 기준선에 계수 β = 0.5를 사용하는데, 이는 경험적으로 더 좋습니다.

기능 융합

생성된 주의 가중치는 이미지 임베딩을 조정하는 데 사용될 수 있습니다. 이미지 영역 특징은 Image={I 1 ,…,I t ,…, IT }이고 생성된 attention 가중치는 ATT={Att 1 ,…,Att t ,…,Att T } 라는 점을 기억하세요. 이미지 영역 특징과 주의 가중치를 조정하려면 요소를 곱하세요.
여기에 이미지 설명을 삽입하세요.
여기서 I A는 조정된 이미지 영역 특징을 나타냅니다. GRU I gr은 조정된 이미지 특징에 대한 전역 추론에 사용됩니다. 융합된 특징은 GRU gr 과 조정된 이미지 영역 특징 출력 의 합입니다 . IE 는 이미지 임베딩 입니다 .

마찬가지로 텍스트 임베딩 생성에도 동일한 접근 방식을 적용합니다. 제안된 이산-연속 PG를 텍스트 임베딩 We 에 직접 적용한다는 점에 유의해야 합니다 .

그러면 텍스트 임베딩에 의해 생성된 특징 조정 및 융합 프로세스는 다음과 같이 표현될 수 있습니다.
여기에 이미지 설명을 삽입하세요.
여기서 T A 는 조정된 텍스트 특징이고 ATT T 는 텍스트 임베딩을 위해 생성된 어텐션 가중치입니다. T E 는 텍스트 삽입입니다.

손실 함수

이미지-텍스트 일치 작업을 수행하기 위해 교차 모드 삼중 손실, 인스턴스 손실, 텍스트 디코딩 손실 및 제안된 PG 손실을 적용하여 모델을 훈련합니다. 모델의 최종 손실 목적 함수는 다음과 같습니다.
여기에 이미지 설명을 삽입하세요.
그 중 Loss Triplet은 힌지 기반의 Triple Ranking Loss입니다. 손실 xe 는 각 인스턴스를 클래스로 처리하는 교차 엔트로피 분류 손실입니다. 손실 I td 및 손실 T td 는 각각 이미지-텍스트 디코딩 손실 및 텍스트-텍스트 디코딩 손실입니다. 이미지 또는 텍스트 임베딩을 문장으로 디코딩합니다. 텍스트 디코딩 모듈의 가중치는 이미지와 텍스트 분기 간에 공유됩니다.
삼중 손실은 다음과 같이 표현됩니다.
여기에 이미지 설명을 삽입하세요.
여기서 α는 한계 초매개변수입니다. [x] + =최대(x,0). S(·)는 유사성 함수입니다. ˆI 및 ˆT는 양수 ​​쌍(I, T)의 가장 어려운 음수입니다.

텍스트 디코딩 손실의 경우 이미지 및 텍스트 디코딩 모듈의 디코더로 컨볼루셔널 이미지 캡션 모델 "CVPR, 2018."을 사용합니다. 우리는 텍스트 디코딩을 병렬로 훈련할 수 있는 능력이 있고 RNN 기반 손실 함수보다 더 효율적인 동일한 손실 함수를 사용합니다.

실험

제안된 이산-연속 PG 알고리즘의 유효성을 평가하기 위해 이전 연구에 이어 이미지를 이용한 문장 검색과 문장을 이용한 이미지 검색 등 두 가지 실험을 수행하였다.

데이터 세트 및 프로토콜

Flickr30K 및 Microsoft-COCO 데이터 세트에 대한 방법의 성능을 평가합니다. 우리는 각각 28,000개 이미지, 1,000개 이미지, 1,000개 이미지의 표준 학습, 검증 및 테스트 분할을 사용합니다. MS-COCO 데이터 세트에는 훈련용 이미지 113287개, 검증용 이미지 5000개, 테스트용 이미지 5000개가 포함되어 있습니다. 각 이미지에는 5개의 캡션이 있습니다. 우리가 사용하는 평가 프로토콜은 각 쿼리에 가장 가까운 K개 샘플 중에서 올바른 항목을 검색하는 쿼리의 비율로 정의되는 K(R@K)에 대한 재현율입니다.

구현 세부정보

우리는 PyTorch를 기반으로 모델을 구축합니다. 우리는 "이미지-텍스트 매칭을 위한 시각적 의미 추론. ICCV, 2019."에서 제공하는 사전 훈련된 상향식 주의 이미지 기능을 사용합니다. 단어 임베딩 크기는 300, 이미지 및 텍스트 임베딩 크기는 2048입니다. 우리 모델에 사용된 GRU 모듈의 숨겨진 크기는 2048입니다. 우리는 100개의 개별 동작 범주, 즉 {0, 1, 2, …, ai, … 100}을 미리 정의했습니다. 여기서 ai는 특성 증폭 동작에 해당하고 해당 값은 ai/λ이고 λ는 하이퍼 매개변수입니다. 작업 범주 수의 선택은 주로 경험적입니다. 100을 선택한 이유는 이미지 영역의 최대 개수에 가깝고, 문장의 최대 단어 개수에도 가까워 이미지 영역의 각 항목과 문장 간의 차이를 설명하기에 충분하기 때문입니다. 자세한 설명은 방정식 11과 12를 참조하세요. 훈련하는 동안 우리는 Adam 옵티마이저를 사용하여 총 30개의 에포크 동안 128의 미니 배치 크기로 모델을 훈련했습니다. 우리는 4e-4의 학습률로 15개의 에포크 동안 훈련을 시작한 다음, 학습률을 4e-5로 줄이고 또 다른 15개의 에포크 동안 훈련합니다. 우리는 검증 세트에서 가장 잘 수행되는 모델을 선택하기 위해 조기 중지 기술을 사용합니다. 교차 모달 삼중 순위 손실의 경우 모든 실험에서 한계 값은 0.2로 설정됩니다. 분류 손실의 경우 Flickr30K 데이터 세트에는 29,783개의 카테고리가 있고 MS-COCO 데이터 세트에는 113,287개의 카테고리가 있습니다. 우리는 Nvidia Geforce 2080-TI GPU 그래픽 카드와 Windows 10 운영 체제가 설치된 서버에서 모든 실험을 수행했습니다 .

최신 방식과의 비교

Flickr30k 결과 : 표 1에는 Flickr30k 데이터 세트의 결과와 현재 최첨단 방법과의 비교가 나열되어 있습니다. 또한 AlexNet, VGG, ResNet, Faster R-CNN과 같은 각 최첨단 방법에서 사용되는 백본 네트워크를 나타냅니다. 제안된 방법은 다른 방법보다 훨씬 뛰어난 성능을 보인다. SCAN과 VSRN은 우리의 방법에 가까운 두 가지 방법입니다. 우리의 방법은 VSRN과 우리의 방법 모두 동일한 교차 모드 삼중 손실과 텍스트 디코딩 손실을 사용하기 때문에 제안된 PG 기반 감독 기능 주의 메커니즘에서 주로 다릅니다. 따라서 주요 성능 향상은 VSRN 모델과 유사한 기존 기본 모델을 효과적으로 개선하는 제안된 이산-연속 PG 알고리즘에서 비롯됩니다. 구체적으로, 자막 검색에 이미지를 사용할 때 R@1 82.8%를 달성하고, 이미지 검색에 자막을 사용할 때 R@1 62.2%를 달성합니다.
여기에 이미지 설명을 삽입하세요.
표 1: Flickr30k 데이터세트의 이미지-텍스트 매칭 비교

MS-COCO 결과 : 표 2와 표 3에는 각각 1K 및 5K MS-COCO 데이터 세트에 대한 실험 결과와 최신 모델과의 비교가 나열되어 있습니다. 1K 테스트 프로토콜의 경우 결과는 1K 테스트 이미지의 5배 평균입니다. 현재 최상의 방법인 SCAN 및 VSRN과 비교할 때 두 모델의 예측 유사성 점수를 평균하여 훈련된 두 제안 모델의 결과를 병합하는 동일한 전략을 채택합니다. 표 2에서 볼 수 있듯이, 우리가 제안한 모델은 이미지를 이용한 제목 검색에서 R@1 84.0%, 제목을 이용한 이미지 검색에서 R@1 63.9%를 달성했다. 결과는 VSRN 및 SCAN보다 훨씬 좋습니다. 5K 테스트 프로토콜의 경우 전체 5K 테스트 샘플을 사용하여 제안된 모델을 평가합니다. 표 3에서 우리의 방법은 이미지를 사용한 제목 검색과 제목을 사용한 이미지 검색에서 각각 68.7% R@1과 46.2% R@1을 달성하여 새로운 최첨단 수준에 도달했음이 분명합니다.
여기에 이미지 설명을 삽입하세요.
표 2: 1K 테스트 세트 MSCOCO 데이터 세트의 이미지-텍스트 매칭 비교
여기에 이미지 설명을 삽입하세요.
표 3: 5K 테스트 세트 MSCOCO 데이터 세트의 이미지-텍스트 매칭 비교

절제 연구

Baseline : 제안된 모델의 각 구성요소에 대해 Ablation 연구를 수행하였고, 그 결과는 Table 4와 같다. 먼저 삼중 손실만 있는 모델을 평가했는데 결과가 상대적으로 나빴습니다. 모델에 인스턴스 손실을 추가한 후에는 순위 결과가 제한적으로 향상됩니다. 마찬가지로, 텍스트 디코딩 손실은 모델의 성능도 향상시키며, 이는 서로 다른 양식 간의 도메인 격차를 줄이는 데 도움이 된다는 것을 입증합니다. 우리의 기본 모델에는 세 가지 손실 함수가 모두 통합되어 있습니다.

이산-연속 PG 방법의 영향 : 기본 모델을 기반으로 제안된 이산-연속 행동 공간 정책 경사 알고리즘의 우수성을 검증하기 위해 먼저 기존 이산-연속 행동 공간 정책 경사 기법과 비교했습니다. 이산 PG 방식을 구현하기 위해 연속 행동 공간 샘플링을 취소하고 이산 행동을 주의 가중치로 직접 사용합니다. 제안된 방법은 개별 PG 방식보다 더 나은 결과를 제공합니다. 둘째, Gaussian 기반의 Continuous Action Space PG 방식만을 적용합니다. 우리가 형성한 복잡한 분포는 행동 공간의 실제 분포를 더 잘 설명할 수 있으므로 우리 계획의 결과도 단일 가우스 PG의 결과보다 우수하며 그 결과는 표 4에 나와 있습니다.
여기에 이미지 설명을 삽입하세요.
표 4: Fickr30k 데이터 세트에 대한 절제 연구

다양한 보상 기능의 영향 : 보상 기능에 대한 제거 연구를 수행한 결과 인스턴스 AP와 결합된 배치 R@1을 보상으로 사용하는 것이 최고의 성능을 제공하는 것으로 나타났습니다. AP 평가가 더 포괄적이고 인스턴스 보상이 일괄 보상보다 더 정확하기 때문에 AP 단독이 R@1 보상보다 낫다는 점에 유의해야 합니다. 분산을 더욱 줄이고 PG 훈련을 보다 안정적으로 만들기 위해 PG 기준선을 추가로 적용합니다. 그런 다음 훈련을 안정화하고 이 온라인 PG 방법의 분산을 줄일 수 있기 때문에 약간 더 나은 성능을 보이는 PG 기준의 영향을 평가합니다. 우리는 절제 연구의 성능을 크게 향상시켜 이미지 및 제목 검색에 대한 R@1 지표를 5% 이상 향상시키는 제안된 방법을 평가합니다. λ 값은 Attention Weight의 크기를 제어하는데 이는 매우 중요합니다. 저감 연구에 따르면 우리의 방법은 다른 λ로 우수한 결과를 달성하지만 적절한 λ(20) 값은 우수한 성능을 유지하는 데 중요합니다.

멀티 헤드 메커니즘 적용 효과 : 멀티 헤드 메커니즘은 트랜스포머 등 유명 모델에 널리 사용되며 추가적인 개선을 가져오는 경우가 많습니다. 제안된 PG 알고리즘에 대한 다중 헤드 메커니즘의 긍정적인 영향을 검증했습니다. 구체적으로 우리는 잠재적인 이산 μ 및 σ 값에 대해 헤드 수가 2개인 긴 메커니즘을 채택합니다. 경험적 결과에 따르면 다중 헤드 메커니즘은 본질적으로 샘플링 잠재 분포의 다양한 측면을 반영하여 성능을 향상시킬 수 있습니다.

사전 훈련된 GloVe 단어 임베딩 사용의 영향 : 바닐라 VSRN 기준선에서는 단어 임베딩 모듈이 훈련 가능합니다. 우리는 표에 표시된 것처럼 사전 훈련된 GloVe 단어 임베딩 모듈의 영향을 연구합니다. 사전 훈련된 GloVe 단어 임베딩을 적용하면 일부 사전 정보가 포함되어 있으므로 일치 성능이 약간 향상될 수 있습니다.

심상

그림 3과 4의 이미지와 텍스트에 대한 검색 결과와 주의 지도를 시각화합니다. 어텐션 맵은 예상되는 이미지 영역을 캡처할 수 있는 반면 언어 어텐션 맵은 중요한 의미를 반영할 수 있다는 것이 그림에서 분명합니다. 그림은 또한 유사한 의미적 내용이나 유사한 시각적 레이아웃을 가진 몇 가지 오류 예를 제공합니다. 그림 5는 훈련 손실 곡선과 보상 함수 곡선의 시각화를 보여줍니다. 훈련이 진행됨에 따라 삼중 손실, 인스턴스 손실 및 텍스트 디코딩 손실이 모두 감소합니다. 보상값은 지속적으로 증가하므로 제안된 이산-연속 PG 방법이 검증되었습니다.
여기에 이미지 설명을 삽입하세요.
그림 3: 제목 검색 결과 및 주의 메커니즘 시각화. 우리는 상위 3개의 검색 결과를 선택합니다
여기에 이미지 설명을 삽입하세요.
.
여기에 이미지 설명을 삽입하세요.
여기서 곡선은 그림과 같습니다.

결론적으로

본 논문에서는 이미지와 텍스트 임베딩을 공통 공간으로 변환하고 이를 최적화하여 더 높은 AP를 달성하기 위한 새로운 정책 그라데이션 기반 어텐션 메커니즘을 제안합니다. 주의 가중치 샘플링에서 복잡한 행동 공간을 모델링하기 위해 복합 행동 공간 분포를 갖춘 이산-연속 행동 공간 정책 그라데이션 알고리즘을 제안합니다. 널리 사용되는 두 가지 벤치마크 데이터 세트에 대한 포괄적인 실험을 통해 제안된 방법의 효율성을 검증하고 최첨단 성능을 달성했습니다.

추천

출처blog.csdn.net/zag666/article/details/129192287