YOLOv8 개선 | 플러그 앤 플레이 | CVPR2023 최신 관심 | "BiFormer: Visual Transformer 및 Double-Layer Routing Attention"

여기에 이미지 설명 삽입

시각적 변환기의 핵심 구성 요소인 어텐션은 장거리 종속성을 캡처하는 강력한 도구입니다. 그러나 이 기능에는 대가가 따릅니다. 모든 공간 위치에서 쌍별 토큰 상호 작용을 계산해야 하기 때문에 막대한 계산 부담과 메모리 공간이 필요합니다. 일련의 연구에서는 주의 작업을 로컬 창, 축 줄무늬 또는 확장된 창으로 제한하는 것과 같이 수작업으로 제작되고 콘텐츠 독립적인 희소성을 도입하여 이 문제를 완화하려고 시도했습니다. 이러한 방법들과 달리, 우리는 보다 유연한 계산 할당 및 콘텐츠 인식을 위해 새로운 이중 계층 라우팅 기반 동적 스파스 어텐션을 제안합니다. 구체적으로, 쿼리의 경우 관련이 없는 키-값 쌍이 먼저 대략적인 영역 수준에서 필터링된 다음 나머지 후보 영역의 합집합에서 세분화된 토큰-토큰 어텐션(즉, 라우팅 영역)이 적용됩니다. 우리는 계산과 메모리를 절약하기 위해 희소성을 활용하고 GPU 친화적인 밀집 행렬 곱셈만 포함하는 제안된 2계층 라우팅 어텐션의 간단하면서도 효율적인 구현을 제공합니다. 제안된 2계층 라우팅 어텐션을 기반으로 BiFormer라는 새로운 일반 비전 변환기도 제안합니다. 쿼리에 적응하는 방법으로 BiFormer는 다른 관련 없는 토큰에 의해 방해받지 않고 소수의 관련 토큰에만 집중하므로 특히 밀집된 예측 작업에서 성능과 계산 효율성 모두에서 잘 수행됩니다. 이미지 분류, 객체 감지 및 의미 분할과 같은 여러 컴퓨터 비전 작업에 대한 경험적 결과는 우리 설계의 효율성을 검증합니다.

종이 주소: https://arxiv.org/pdf/2303.08810.pdf


개략도

Guess you like

Origin blog.csdn.net/weixin_43694096/article/details/130454957