PVT v2: Pyramid Vision Transformer로 기준선 개선

논문 주소: https://arxiv.org/pdf/2106.13797.pdf
코드 주소: https://github.com/whai362/PVT

1. 연구배경

시각적 변환기에 대한 최근 연구는 이미지 분류, 객체 감지, 인스턴스 및 의미론적 분할과 같은 다운스트림 비전 작업을 위해 설계된 백본 네트워크에 집중되고 있습니다. 예를 들어 ViT(Vision Transformer)는 순수 Transformer가 이미지 분류에서 최첨단 성능을 달성할 수 있음을 최초로 입증한 회사입니다. PVT v1(Pyramid Vision Transformer)은 순수 Transformer 백본이 탐지 및 분할 작업과 같은 밀도 높은 예측 작업에서 CNN보다 성능이 뛰어날 수도 있음을 보여줍니다. 이후 Swin Transformer, CoaT, LeViT 및 Twins는 분류, 감지 및 세분화에서 Transformer 백본의 성능을 더욱 향상시켰습니다.
이 문서에서는 PVT v1을 기반으로 더욱 강력하고 실행 가능한 기준선을 설정하는 것을 목표로 합니다.
(1) 선형 복잡성 주의 계층,
(2) 중첩 패치 임베딩, (3) 컨벌루션 피드포워드 네트워크 는
PVT v1 네트워크와 직교하며, PVT v1과 함께 사용하면 더 나은 이미지 분류를 가져올 수 있습니다. 객체 감지, 인스턴스 및 의미론적 분할 성능. 향상된 프레임워크를 PVT v2라고 합니다.

2. 실시내용

PVT v1의 세 가지 주요 제한 사항은 다음과 같습니다.
(1) ViT와 유사하게 PVT v1의 계산 복잡성은 고해상도 입력(예: 짧은 쪽의 800픽셀)을 처리할 때 상대적으로 큽니다.
(2) PVT v1은 이미지를 겹치지 않는 블록의 시퀀스로 처리하므로 이미지의 로컬 연속성이 어느 정도 손실됩니다. (3)
PVT v1의 위치 인코딩은 고정된 크기이므로 처리에 적합하지 않습니다. 임의 크기의 이미지. 이러한 문제는 비전 작업에서 PVT v1의 성능을 제한합니다.

1. 선형 공간은 주의력을 감소시킵니다.

첫째, Attention 연산으로 인해 발생하는 높은 계산 비용을 줄이기 위해 본 논문에서는 아래 그림과 같은 Attention Layer(SRA)를 제안합니다. 공간 축소를 위해 컨볼루션을 사용하는 SRA와 달리 선형 SRA는 주의 작업 전에 평균 풀링을 사용하여 공간 차원(즉, h × w)을 고정된 크기(즉, P × P)로 줄입니다. 따라서 선형 SRA는 컨벌루션 레이어와 마찬가지로 선형 계산 및 저장 비용을 갖습니다. 구체적으로, 입력 크기가 h × w × c인 경우 SRA 및 선형 SRA의 복잡성은 다음과 같습니다.
여기에 이미지 설명을 삽입하세요.
여기서 R은 SRA의 공간 감소율입니다. P는 선형 SRA의 풀링 크기이며 7로 설정됩니다.

2. 겹치는 절단 및 매립

둘째, 로컬 연속성 정보를 모델링하기 위해 중첩 타일 임베딩을 활용하여 이미지에 레이블을 지정합니다. 아래 그림 (a)와 같이 패치 창을 확대하여 인접한 창이 면적의 절반만큼 겹치도록 하고, 해상도를 유지하기 위해 특징 맵을 0으로 채웁니다. 이 작업에서는 패딩이 0인 컨볼루션을 사용하여 중첩 블록 임베딩을 구현합니다. 구체적으로, 입력 크기가 h×w×c인 경우 스트라이드 S, 커널 크기 2S-1, 패딩 크기 S-1을 사용하여 컨볼루션에 공급됩니다. 코어 수는 $c^{'}$ 출력 크기는 $h/S×w/S×c^{'}$ 。
여기에 이미지 설명을 삽입하세요.

3. 컨벌루션 피드포워드 네트워크

본 논문에서는 고정 크기 위치 인코딩을 제거하고 PVT에 제로 패딩 위치 인코딩을 도입합니다. 아래 그림 (b)와 같습니다. 피드포워드 네트워크의 첫 번째 완전 연결(FC) 레이어와 GELU 사이에 패딩 크기 1의 3×3 깊이 컨볼루션이 추가됩니다.
여기에 이미지 설명을 삽입하세요.

4. PVT v2 시리즈의 상세 정보

이 문서에서는 하이퍼파라미터를 변경하여 PVT v2를 B0에서 B5로 확장합니다. 아래와 같이:
$S_i$ : i단계에서 중첩 패치 임베딩의 진전
$C_i$ : i번째 스테이지에서 출력되는 채널 수,
$L_i$ : 스테이지 i의 인코더 레이어 수,
$R_i$ : i단계의 SRA 감소율,
$P_i$ : i단계 선형 SRA의 적응형 평균 풀링 크기,
$N_i$ : 첫 번째 단계의 효과적인 self-attention 헤드 수
$E_i$ : 단계 i에서 피드포워드 레이어의 확장 비율,
다음 표는 PVT v2 시리즈의 세부 사항을 보여줍니다. ResNet의 원칙을 따르세요 .
(1) 채널 크기는 증가하는 반면, 레이어가 깊어질수록 공간 해상도는 줄어듭니다.
(2) 계산 비용의 대부분은 3단계에 할당됩니다.
여기에 이미지 설명을 삽입하세요.

5. PVT v2의 장점

이러한 개선 사항을 결합하여 PVT v2는
(1) 이미지와 특징 맵의 더 많은 로컬 연속성을 얻을 수 있고,
(2) 가변 해상도 입력을 더 유연하게 처리하고,
(3) CNN과 동일한 선형 복잡성을 가질 수 있습니다.

3. 실험적 검증

여기에 이미지 설명을 삽입하세요.

여기에 이미지 설명을 삽입하세요.

PVT v2에 대한 절제 실험은 표 6에 보고되어 있습니다. 세 가지 설계 모두 성능, 매개변수 수 또는 계산 오버헤드 측면에서 모델을 개선할 수 있습니다. OPE(Overlapping Tile Embedding)가 중요합니다. 표 6의 #1과 #2를 비교하면 원래 패치 임베딩(PE)을 적용한 모델과 비교하여 OPE를 적용한 모델이 ImageNet에서 더 나은 상위 1위 정확도(81.1% 대 79.8%)를 얻었고 COCO에서는 더 높은 AP(42.2)를 얻었습니다. % 대 40.4%). OPE는 겹치는 슬라이딩 창을 통해 이미지와 기능 맵의 로컬 연속성을 모델링할 수 있기 때문에 효과적입니다.
CFFN(컨벌루션 피드포워드 네트워크)이 중요합니다. 원래의 FFN(피드포워드 네트워크)과 비교할 때 CFFN에는 제로 패딩 컨벌루션 레이어가 포함되어 있습니다. 입력 텐서의 로컬 연속성을 캡처할 수 있습니다. 또한 OPE 및 CFFN의 제로 패딩은 위치 정보를 도입하므로 PVT v1에서 사용되는 고정 크기 위치 임베딩을 제거할 수 있어 모델이 가변 해상도 입력을 유연하게 처리할 수 있습니다.