MobileViG: 모바일 비전 애플리케이션을 위한 그래프 기반 Sparse Attention

요약

종이 링크: https://arxiv.org/pdf/2307.00395.pdf
전통적으로 CNN(Convolutional Neural Networks)과 ViT(Visual Transformers)가 컴퓨터 비전 분야를 지배했습니다. 그러나 최근에 제안된 Visual Graph Neural Network(ViG)는 새로운 탐색 방법을 제공합니다. 불행하게도 모바일 애플리케이션의 경우 ViG는 이미지를 그래프 구조로 나타내는 오버헤드로 인해 계산 비용이 많이 듭니다. 본 연구에서는 모바일 장치에서 실행되는 희소 시각적 그래프를 위해 설계된 새로운 그래프 기반 희소 주의 메커니즘인 SVGA(Sparse Visual Graph Attention)를 제안합니다. 또한 모바일 장치 비전 작업을 위한 최초의 하이브리드 CNN-GNN 아키텍처인 SVGA를 사용하는 MobileViG를 제안합니다. 광범위한 실험에 따르면 MobileViG는 이미지 분류, 개체 감지 및 인스턴스 분할 작업의 정확성 및/또는 속도 측면에서 기존 ViG 모델과 기존 모바일 CNN 및 ViT 아키텍처보다 성능이 뛰어납니다. 우리의 가장 빠른 모델인 MobileViG-Ti는 ImageNet-1K에서 75.7%의 top-1 정확도와 iPhone 13 Mini NPU(CoreML로 컴파일됨)에서 0.78ms의 추론 대기 시간을 달성했습니다. 이는 MobileNetV2x1.4(1.02ms, 74.7% top-1) 및 MobileNetV2x1.0(0.81ms, 71.8% top-1)보다 빠릅니다. 우리의 가장 큰 모델인 MobileViG-B는 동일한 크기의 EfficientFormer-L3 모델(2.77ms, 82.4%)보다 빠르고 정확한 2.30ms 대기 시간으로 82.6%의 top-1 정확도를 달성합니다. 우리의 작업은 잘 설계된 하이브리드 CNN-GNN 아키텍처가 모바일 장치에서 매우 빠르고 정확한 모델을 설계하기 위한 새로운 탐색 방법을 제공할 수 있음을 보여줍니다. 우리의 코드는 https://github.com/SLDGroup/MobileViG에서 공개적으로 사용할 수 있습니다.

1. 소개

인공 지능(AI)과 기계 학습(ML)은 지난 10년 동안 폭발적으로 증가했습니다. 컴퓨터 비전에서 이러한 성장의 핵심 동인은 신경망, 특히 컨볼루션 신경망(CNN)과 최근에는 시각적 트랜스포머[4, 25]의 재출현입니다. 역전파로 훈련된 CNN은 1980년대에 발명되었지만[16, 25] 문자 인식과 같은 소규모 작업에 사용되었습니다[17]. ImageNet[32] 경쟁에서 AlexNet[15]이 도입될 때까지 인공 지능 분야를 재구성할 수 있는 CNN의 잠재력은 완전히 실현되지 않았습니다. CNN 아키텍처에 대한 추가 개선으로 정확도, 효율성 및 속도가 향상되었습니다[10, 12, 13, 33, 34]. CNN 아키텍처와 마찬가지로 순수 다층 퍼셉트론(MLP) 아키텍처와 MLP 유사 아키텍처도 일반적인 비전 작업의 중추가 될 것으로 예상됩니다[2, 37, 38].

CNN과 MLP는 컴퓨터 비전 분야에서 널리 사용되어 왔지만, 비전과 언어 작업의 차이로 인해 자연어 처리 분야에서는 RNN(Recurrent Neural Network), 특히 LSTM(Long Short-Term Memory) 네트워크를 사용합니다[11]. LSTM은 여전히 ​​사용 중이지만 NLP 작업에서 Transformer 아키텍처로 대체되었습니다[40]. ViT(Vision Transformer)의 도입으로 [4] 언어 및 비전 도메인 모두에 적용할 수 있는 네트워크 아키텍처가 도입되었습니다. 이미지를 일련의 블록 임베딩으로 분할하면 이미지를 Transformer 모듈에서 사용할 수 있는 입력으로 변환할 수 있습니다[4]. CNN 또는 MLP에 비해 Transformer 아키텍처의 주요 이점 중 하나는 이미지에서 멀리 있는 물체의 상호 작용으로부터 학습할 수 있는 전역 수용 필드입니다.

그래프 신경망(GNN)은 생물학적 네트워크, 소셜 네트워크 또는 인용 네트워크와 같은 그래프 기반 구조에서 작동하도록 개발되었습니다[7, 14, 43, 45]. GNN은 노드 분류[14], 약물 발견[5], 사기 탐지[23], 최근 제안된 Visual GNN(ViG)[8]과 같은 컴퓨터 비전 작업과 같은 작업에도 사용되었습니다. 즉, ViG는 이미지를 여러 개의 작은 패치로 나눈 다음 이러한 작은 패치를 k-최근접 이웃(KNN) 알고리즘[8]으로 연결하여 ViT와 유사한 전역 개체 상호 작용을 처리할 수 있는 기능을 제공합니다.

모바일 애플리케이션을 위한 컴퓨터 비전 연구의 급속한 성장으로 인해 CNN을 사용하여 공간적 로컬 표현을 학습하고 ViT(Visual Transformers)를 사용하여 글로벌 표현을 학습하는 하이브리드 아키텍처가 등장했습니다[27]. 현재 ViG 모델은 비효율적이고 모바일 장치에서 실행 속도가 느리기 때문에 모바일 작업에 적합하지 않습니다. CNN 및 ViT 모델 설계에서 배운 개념을 탐색하여 CNN-GNN 하이브리드 모델이 CNN 기반 모델의 속도와 ViT 기반 모델의 정확성을 제공할 수 있는지 여부를 결정할 수 있습니다. 이 작업에서는 모바일 장치의 컴퓨터 비전을 위한 하이브리드 CNN-GNN 아키텍처를 조사하고 기존의 효율적인 아키텍처와 경쟁할 수 있는 그래프 기반 어텐션 메커니즘을 개발합니다. 우리의 기여는 다음과 같이 요약됩니다.

  1. 우리는 모바일 비전 애플리케이션을 위한 새로운 그래프 기반 스파스 어텐션 방법을 제안합니다. 이 주의 방법을 SVGA(Sparse Visual Graph Attention)라고 합니다. 우리의 방법은 재구성이 필요하지 않고 이전 방법에 비해 그래프 구성에 약간의 오버헤드가 발생하므로 가볍습니다.
  2. 우리는 우리가 제안한 SVGA, 최대 상대 그래프 컨볼루션[18], 모바일 CNN 및 모바일 비전 트랜스포머 아키텍처[12, 27](이를 MobileViG라고 함)의 개념을 사용하여 비전 작업을 위한 새로운 모바일 CNN-GNN 아키텍처를 제안합니다.
  3. 우리가 제안한 모델인 MobileViG는 세 가지 대표적인 비전 작업(ImageNet 이미지 분류, COCO 개체 감지 및 COCO 인스턴스 분할)에 대한 정확도 및/또는 속도 측면에서 기존의 Visual Graph Neural Network(ViG), Mobile Convolutional Neural Network(CNN) 및 Mobile Vision Transformer(ViT) 아키텍처와 일치하거나 능가합니다.

우리가 아는 한, 이 백서는 모바일 비전 애플리케이션을 위한 하이브리드 CNN-GNN 아키텍처를 연구한 최초의 문서입니다. 제안된 SVGA 어텐션 방법과 MobileViG 아키텍처는 최첨단 모바일 아키텍처와 ViG 아키텍처를 위한 새로운 탐색 경로를 엽니다.

본 논문의 구성은 다음과 같다. 섹션 2는 ViG 및 모바일 아키텍처 분야의 관련 작업을 제시합니다. 섹션 3에서는 SVGA 및 MobileViG 아키텍처의 설계 방법론을 설명합니다. 섹션 4에서는 ImageNet-1k 이미지 분류, COCO 개체 감지 및 COCO 인스턴스 분할에 대한 실험 설정 및 결과를 제시합니다. 마지막으로 섹션 V에서는 논문을 마무리하고 모바일 아키텍처 설계에서 ViG를 사용하는 향후 작업에 대한 권장 사항을 제시합니다.

2. 관련업무

보다 유연한 형식으로 이미지 데이터를 표현할 수 있는 기능으로 인해 ViG [8]가 CNN 및 ViT의 대안으로 제안되었습니다. ViG는 이미지의 각 픽셀이 유사한 픽셀에 초점을 맞추는 KNN 알고리즘 [8]을 사용하여 이미지를 나타냅니다. ViG의 성능은 인기 있는 ViT 모델인 DeiT[39] 및 SwinTransformer[24]의 성능과 유사하며 추가 연구가 필요합니다.
ViT 기반 모델은 비전 작업에서 성공을 거두었지만, ViT 기반 모델의 전역 수용 필드가 부족한 경량 CNN 기반 모델[21]에 비해 여전히 느립니다. 따라서 ViT 기반 모델은 ViT 기반 모델보다 빠른 속도와 CNN 기반 모델보다 높은 정확도를 제공함으로써 가능한 솔루션이 될 수 있다. 우리가 아는 한 모바일 ViG에 대한 연구는 없지만 모바일 CNN 및 하이브리드 모델 분야에서 많은 연구 결과가 있습니다. 우리는 모바일 아키텍처 설계를 CNN(Convolutional Neural Network) 모델과 CNN과 ViT의 요소를 결합한 하이브리드 CNN-ViT 모델의 두 가지 범주로 분류합니다.

CNN 아키텍처를 기반으로 하는 MobileNetv2[33] 및 EfficientNet[35, 36] 제품군은 일반적인 이미지 작업에서 성공한 최초의 모바일 모델입니다. 이러한 모델은 가볍고 빠른 추론입니다. 그러나 순전히 CNN 기반 모델은 점차 하이브리드 경쟁자로 대체되었습니다.

MobileViTv2[28], EdgeViT[29], LeViT[6], EfficientFormerv2[20] 등을 포함한 많은 수의 하이브리드 이동성 모델이 있습니다. 이러한 하이브리드 모델은 이미지 분류, 개체 감지 및 인스턴스 분할 작업에서 MobileNetv2보다 지속적으로 우수한 성능을 보이지만 이러한 모델 중 일부는 대기 시간 측면에서 항상 우수한 성능을 발휘하지는 않습니다. 대기 시간 차이는 일반적으로 모바일 하드웨어에서 더 느린 ViT 블록 포함과 관련이 있을 수 있습니다. 이러한 상황을 개선하기 위해 우리는 MobileNetv2[33]와 비슷한 속도와 EfficientFormer[21]와 비슷한 정확도를 제공하는 MobileViG를 제안합니다.

3. 방법

이 섹션에서는 SVGA 알고리즘을 소개하고 MobileViG 아키텍처 설계에 대해 자세히 설명합니다. 보다 정확하게는 3.1절에서 SVGA 알고리즘을 소개합니다. 섹션 3.2에서는 ViG [8]의 Grapher 모듈을 적용하여 SVGA 블록을 생성하는 방법을 설명합니다. 섹션 3.3에서는 MobileViGTi, MobileViG-S, MobileViG-M 및 MobileViG-B를 생성하기 위해 로컬 처리를 위해 SVGA 블록을 역 잔차 블록과 결합하는 방법을 설명합니다.

3.1 스파스 비주얼 맵 어텐션

본 논문은 Visual GNN[8]에서 KNN 그래프 어텐션을 대체할 모바일 기기에 적합한 대안으로 SVGA(Sparse Visual Graph Attention)를 제안한다. KNN 기반 그래프 어텐션은 모바일 장치에 적합하지 않은 두 가지 구성 요소인 KNN 계산 및 입력 재구성을 도입하고 SVGA를 사용하여 제거합니다.
여기에 이미지 설명 삽입

구체적으로 각 픽셀의 가장 가까운 이웃을 미리 알 수 없기 때문에 각 입력 이미지마다 KNN 계산이 필요합니다. 이렇게 하면 그림 1a와 같이 임의의 연결이 포함된 그래프가 생성됩니다. KNN의 구조화되지 않은 특성으로 인해 [8]의 저자는 입력 이미지를 4D 텐서에서 3D 텐서로 재구성하여 그래프 컨벌루션을 위해 연결된 픽셀의 기능을 올바르게 정렬할 수 있도록 했습니다. 그래프 컨볼루션 후 후속 컨볼루션 레이어를 위해 입력을 3D에서 4D로 다시 형성해야 합니다. 따라서 KNN 기반 어텐션에는 KNN 계산과 두 가지 재구성 작업이 필요하며 둘 다 모바일 장치에서 비용이 많이 듭니다.

KNN 계산 및 재구성 작업의 오버헤드를 제거하기 위해 SVGA는 그래프가 고정되어 있고 각 픽셀이 해당 행과 열의 k번째 픽셀에 연결되어 있다고 가정합니다. 예를 들어, 8×8 이미지와 K = 2가 주어지면 왼쪽 위 모서리에 있는 픽셀은 그림 1b와 같이 행 위의 모든 픽셀과 열 아래의 모든 픽셀에 연결됩니다. 입력 이미지의 각 픽셀에 대해 동일한 패턴이 반복됩니다. 그래프는 고정된 구조를 갖기 때문에(즉, 각 픽셀은 모든 8×8 입력 이미지에 대해 동일한 연결을 가짐) 그래프 컨볼루션을 수행하기 위해 입력 이미지를 재구성할 필요가 없습니다.

여기에 이미지 설명 삽입

대신 알고리즘 1에서 rollright roll_{right} 로 표시되는 두 이미지 차원에 걸친 롤링 작업으로 구현할 수 있습니다.로엘 _ _권리 _ _ _ _rolldown roll_{down}로엘 _ _다운 _ _ _. 롤 작업의 첫 번째 매개변수는 롤에 대한 입력이고 두 번째 매개변수는 오른쪽 또는 아래로 스크롤할 거리입니다. K = 2인 그림 1b의 예를 사용하여 이미지를 오른쪽으로 두 번, 오른쪽으로 네 번, 오른쪽으로 여섯 번 스크롤하여 왼쪽 상단 픽셀을 해당 행의 초당 픽셀과 정렬할 수 있습니다. 열의 각 픽셀에 대해 아래로 스크롤하는 것을 제외하고 동일한 작업을 수행합니다. 모든 픽셀이 동일한 방식으로 연결되어 있으므로 왼쪽 상단 픽셀을 해당 연결에 정렬하는 스크롤 작업은 이미지의 다른 모든 픽셀을 해당 연결에 동시에 정렬합니다. MobileViG에서 그래프 컨볼루션은 최대 상대 그래프 컨볼루션(MRConv)을 사용하여 수행됩니다. 따라서 매번 rollright roll_{right}로엘 _ _권리 _ _ _ _rolldown roll_{down}로엘 _ _다운 _ _ _연산 후 원본 입력 이미지와 롤링된 버전의 차이가 계산되며, 이는 알고리즘 1에서 X r X_r 로 표시됩니다.엑스Xc X_c엑스, 가장 큰 작업은 요소를 가져와 X j X_j 에 저장합니다.엑스j, 알고리즘 1에서 X j X_j 로도 표시됨엑스j. 롤링 및 최대 상대 작업 후 최종 Conv2d가 수행됩니다. 이 접근 방식을 사용하면 SVGA는 비용이 덜 드는 롤링 작업을 위해 KNN 계산을 교체하므로 그래프 컨벌루션을 수행하기 위해 리팩토링이 필요하지 않습니다.

SVGA는 KNN의 표현 유연성을 피하고 모바일 단말기에 적응하는 것을 선호합니다.

3.2, SVGA 블록

SVGA 및 업데이트된 MRConv 레이어는 Vision GNN [8]에서 제안된 Grapher 블록에 연결됩니다. 주어진 입력 특성 X ∈ RN × NX \in \mathbb{R}^{N \times N}엑스아르 자형N × N , 업데이트된 Grapher는
Y = σ ( MR Ronv ⁡ ( XW in ) ) W out + XY=\sigma\left(MR \operatorname{Ronv}\left(X W_{\text {in }}\right)\right) W_{\text {out }}+X와이=( 미스터론브( X 안으로 ) )아웃 +엑스

여기서 $ Y \in \mathbb{R}^{N \times N}, W_{\text {in }} 그리고 W_{out}$는 완전 연결 계층의 가중치이고 σ는 GeLU 활성화입니다. MRConv 단계에서 필터 뱅크 수를 4(Vision GNN[8]에서 사용된 값)에서 1로 변경하여 대기 시간을 크게 늘리지 않고 MRConv 레이어의 표현 잠재력을 높입니다. 업데이트된 Grapher 모듈은 그림 2d에 나와 있습니다.

여기에 이미지 설명 삽입

업데이트된 Grapher 이후 그림 2e와 같이 Vision GNN[8]에서 제안한 Feedforward Network(FFN) 모듈을 사용합니다. FFN 모듈은
Z = σ ( XW 1 ) W 2 + YZ=\sigma\left(X W_{1}\right) W_{2}+Y로 표현되는 2계층 MLP입니다.=( X 1)2+Y
其中Z ∈ RN × N , W 1 Z \in \mathbb{R}^{N \times N}, W_{1}아르 자형N × N ,1W 2 W_22는 완전히 연결된 레이어의 가중치이고 σ는 다시 GeLU입니다. 우리는 그림 2c와 같이 Grapher와 FFN의 업데이트된 조합을 SVGA 블록이라고 부릅니다.

3.3, MobileViG 아키텍처

그림 2a에 표시된 MobileViG 아키텍처는 MobileNetv2[33]에 표시된 것처럼 로컬 처리를 위한 확장 비율이 4인 컨벌루션 스템과 3단계 역잔차 블록(MBConv)으로 구성됩니다. MBConv 블록에서 컴퓨터 비전 작업의 성능을 향상시키는 것으로 나타났기 때문에 ReLU6를 GeLU로 대체합니다[4, 20]. MBConv 블록은 그림 2b와 같이 1×1 컨볼루션과 배치 정규화(BN) 및 GeLU, 깊이 3×3 컨볼루션과 BN 및 GeLU, 마지막으로 1×1 컨볼루션과 BN 및 잔여 연결로 구성됩니다. MBConv 블록 다음에는 그림 2a와 같이 전역 정보를 캡처하는 SVGA 블록 단계가 있습니다. SVGA 블록 다음에는 분류를 위한 컨벌루션 헤드도 있습니다. 각 MBConv 단계 후 다운샘플링 단계는 입력 해상도를 절반으로 줄이고 채널 차원을 확장합니다. 각 단계는 여러 MBConv 또는 SVGA 블록으로 구성되며 반복 횟수는 모델 크기에 따라 다릅니다. MobileViG-Ti, MobileViG-S, MobileViG-M 및 MobileViG-B에 대한 채널 크기 및 단계당 반복 블록 수는 표 1에 나와 있습니다.

여기에 이미지 설명 삽입

4. 실험결과

우리는 MobileViG를 ViG[8]와 비교하고 표 2의 ImageNet-1k[3]에서 대기 시간, 모델 크기 및 이미지 분류 정확도 측면에서 MobileViG의 우수한 성능을 보여줍니다. 우리는 또한 MobileViG를 여러 모바일 모델과 비교하고 표 3에서 각 모델에 대해 정확성과 대기 시간 측면에서 우수하거나 비슷한 성능을 가지고 있음을 보여줍니다.
여기에 이미지 설명 삽입

4.1 이미지 분류

우리는 PyTorch 1.12[30]와 Timm 라이브러리[42]를 사용하여 모델을 구현합니다. 유효 배치 크기가 1024인 NVIDIA A100 GPU 8개를 사용하여 각 모델을 훈련합니다. 이 모델은 AdamW 옵티마이저[26]를 사용하여 300 epoch 동안 ImageNet1K[3]에서 처음부터 학습됩니다. 학습률은 2e-3, 코사인 어닐링 전략으로 설정됩니다. 교육 및 테스트를 위해 표준 이미지 해상도인 224 × 224를 사용합니다. DeiT[39]와 유사하게 우리는 82.9%의 정확도로 지식 추출을 위해 RegNetY-16GF[31]를 사용합니다. 데이터 증가를 위해 RandAugment, Mixup, Cutmix, 무작위 삭제 및 반복 증가를 사용합니다.

iPhone 13 Mini(iOS 16)를 사용하여 NPU 및 GPU 대기 시간을 벤치마킹합니다. 모델은 CoreML로 컴파일되며 대기 시간은 1000개 이상의 예측[1]에 대한 평균입니다.
여기에 이미지 설명 삽입

표 2에서 볼 수 있듯이 MobileViG는 비슷한 수의 매개변수에 대해 정확도와 GPU 대기 시간 모두에서 Pyramid ViG[8]보다 성능이 뛰어납니다. 예를 들어, 3.5M 더 적은 매개변수로 MobileViG-S는 Pyramid ViG-Ti와 동일한 Top-1 정확도를 달성하면서 2.83배 더 빠릅니다. 또한 0.6M 적은 매개변수로 MobileViG-B는 Top-1 정확도에서 Pyramid ViG-S를 0.5% 능가하는 동시에 2.08배 더 빠릅니다.

표 3의 모바일 모델과 비교할 때 MobileViG는 NPU 대기 시간, GPU 대기 시간 또는 정확도 측면에서 모든 모델을 지속적으로 능가합니다. MobileViG-Ti는 MobileNetv2보다 빠르며 Top-1 정확도가 3.9% 더 높습니다. 또한 NPU 및 GPU 대기 시간에서 약간의 이점을 가지면서 Top-1에서 EfficientFormerv2[20]와 일치합니다. MobileViG-S의 NPU 대기 시간은 EfficientNet-B0 [35]보다 거의 2배 빠르며 Top-1 정확도는 EfficientNet-B0보다 0.5% 더 높습니다. MobileViTv2-1.5[28]와 비교하여 MobileViG-M은 NPU 지연 시간이 3배, GPU 지연 시간이 2배 빠르고 최고 정확도가 0.2% 향상되었습니다. 또한 MobileViG-B는 DeiT-S보다 6배 빠르며 Top-1 정확도에서 DeiT-S 및 Swin-Tiny를 이길 수 있습니다.

4.2 대상 탐지 및 인스턴스 분할

개체 감지 및 인스턴스 분할 작업에 대한 MobileViG의 성능을 평가하여 SVGA의 잠재력을 추가로 보여줍니다. MobileViG는 Mask-RCNN 프레임워크[9]에 뼈대 네트워크로 통합되어 있으며 MS COCO 2017 데이터 세트[22]를 사용하여 실험을 수행합니다. 우리는 PyTorch 1.12[30]와 Timm 라이브러리[42]를 사용하여 백본을 구현했고 4개의 NVIDIA RTX A6000 GPU를 사용하여 모델을 훈련했습니다. 우리는 300회 훈련에서 미리 훈련된 ImageNet-1k 가중치로 모델을 초기화하고, 초기 학습률이 2e-4인 AdamW [26] 옵티마이저를 사용하고, NextViT, EfficientFormer 및 EfficientFormerV2 절차에 따라 표준 해상도(1333 X 800)에서 12회 동안 모델을 훈련합니다[19-21].
여기에 이미지 설명 삽입

표 4에서 볼 수 있듯이 유사한 모델 크기를 가진 MobileViG는 ResNet, PoolFormer, EfficientFormer 및 PVT보다 개체 감지 및/또는 인스턴스 분할을 위한 매개변수 또는 향상된 평균 정밀도(AP) 측면에서 성능이 뛰어납니다. 중간 크기의 MobileViG-M 모델은 물체 감지 작업에서 APbox 41.3, IoU가 50일 때 APbox 62.8, IoU가 75일 때 APbox 45.1입니다. 인스턴스 분할 작업의 경우 MobileViG-M은 50 IoU에서 38.1 APmask, 60.1 APmask, 75 IoU에서 40.8 APmask를 얻습니다. 대상 탐지 작업에서 대규모 MobileViG-B 모델의 APbox는 42.0, IoU가 50일 때 64.3, IoU가 75일 때 46.0입니다. MobileViG-B는 인스턴스 분할 작업에서 38.9 APmask, 50 IoU에서 61.4 APmask, 75 IoU에서 41.6 APmask를 얻습니다. 개체 감지 및 인스턴스 세분화에 대한 MobileViG의 강력한 성능은 MobileViG가 컴퓨터 비전에서 다양한 작업의 중추로서 우수한 일반화 능력을 가지고 있음을 보여줍니다.

MobileViG의 디자인은 부분적으로 Pyramid ViG[8], EfficientFormer[21] 및 MetaFormer 개념[44]의 디자인에서 영감을 받았습니다. MobileViG에서 얻은 결과는 하이브리드 CNN-GNN 아키텍처가 CNN, ViT 및 하이브리드 CNN-ViT 설계에 대한 실행 가능한 대안임을 보여줍니다. 하이브리드 CNN-GNN 아키텍처는 CNN 기반 모델의 속도와 ViT 모델의 정확도를 제공할 수 있으므로 고정밀 모바일 아키텍처 설계에 이상적인 후보입니다. 모바일 컴퓨터 비전 작업을 위한 하이브리드 CNN-GNN 아키텍처에 대한 추가 탐색은 MobileViG 개념을 개선하고 새로운 최첨단 아키텍처를 도입할 수 있습니다.

5. 결론

본 연구에서는 그래프 기반 어텐션 메커니즘인 SVGA(Sparse Visual Graph Attention)와 SVGA를 이용한 경쟁력 있는 모바일 비전 아키텍처인 MobileViG를 제안한다. 이전 접근 방식과 달리 SVGA는 재구성이 필요하지 않으며 추론 전에 그래프 구조를 알 수 있습니다. 반전 잔차 블록, 최대 상대 그래프 컨벌루션 및 피드포워드 네트워크 계층을 사용하여 이미지 분류, 개체 감지 및 인스턴스 분할 작업에서 경쟁력 있는 결과를 달성하는 하이브리드 CNN-GNN 아키텍처인 MobileViG를 생성합니다. MobileViG는 정확성과 대기 시간 측면에서 기존 ViG 모델과 MobileNetv2를 포함한 많은 기존 모바일 모델보다 성능이 뛰어납니다. 모바일 아키텍처에 대한 향후 연구에서는 리소스가 제한된 장치에서 IoT 애플리케이션을 위한 GNN 기반 모델의 잠재력을 추가로 탐색할 수 있습니다.

Guess you like

Origin blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/131594813