Visual Transformer アルゴリズムの概要


ディープラーニングのナレッジポイントのまとめ

コラムリンク:
https://blog.csdn.net/qq_39707285/article/details/124005405

此专栏主要总结深度学习中的知识点,从各大数据集比赛开始,介绍历年冠军算法;同时总结深度学习中重要的知识点,包括损失函数、优化器、各种经典算法、各种算法的优化策略Bag of Freebies (BoF)等。


RNNからTransformerシリーズへの注目まで

コラムリンク:
https://blog.csdn.net/qq_39707285/category_11814303.html

此专栏主要介绍RNN、LSTM、Attention、Transformer及其代码实现。


YOLOシリーズのターゲット検出アルゴリズム

コラムリンク:
https://blog.csdn.net/qq_39707285/category_12009356.html

此专栏详细介绍YOLO系列算法,包括官方的YOLOv1、YOLOv2、YOLOv3、YOLOv4、Scaled-YOLOv4、YOLOv7,和YOLOv5,以及美团的YOLOv6,还有PaddlePaddle的PP-YOLO、PP-YOLOv2等,还有YOLOR、YOLOX、YOLOS等。


ビジュアルトランスフォーマー

コラムリンク:
https://blog.csdn.net/qq_39707285/category_12184436.html

此专栏详细介绍各种Visual Transformer,包括应用到分类、检测和分割的多种算法。



Visual Transformer アルゴリズムの概要
この記事では、分類、ターゲット検出、ターゲット セグメンテーションなど、コンピュータ ビジョンの分野に Transformer を適用するさまざまなアルゴリズムを要約し、対応するデータ セットでそれらを比較します。

1. 分類用トランス

1
ImageNet-1k、CIFAR-10、および CIFAR-100 データセットにおけるVisual TransformerのTOP-1精度の比較。
「1k のみ」は
ImageNet-1Kデータセットのみでトレーニングすることを意味します。「21k 事前トレーニング」はImageNet-21k データセットで事前トレーニングしてから ImageNet-1k で微調整することを意味します。「蒸留」はDEIT 蒸留を適用することを意味します研修プログラム
方法 タイプ エポック バッチ
サイズ
#パラメータ。
(男)
フロップス
(G)
トレーニング
スキーム
画像サイズ ImageNet-1k トップ 1 アクセス CIFAR トップ 1 認定
訓練 テスト 1kのみ 21kの電車前。/ 蒸留する。Υ シファー10 シファー100
ViT-B/16↑
ViT-L/16↑ 
OVT 300 4096 86
307
743
5172
ViT  224
224
384
384
77.9
76.5
83.97
85.15
98.1
97.9
87.1
86.4
VT-ResNet18
VT-ResNet34
VT-ResNet50
VT-ResNet101 
テック 90 256 11.7
19.2
21.4
41.5
1.569
3.236
3.412
7.129
- 224
224
224
224
224
224
224
224
76.8
79.9
80.6
82.3
-
-
-
-
-
-
-
-
-
-
-
-
BoTNet-S1-59-T2
BoTNet-S1-110-T4
BoTNet-S1-128-T5↑ 
テック 350 4096 33.5
54.7
75.1
7.3
10.9
19.3
- 224
224
224
224
224
256
81.7
82.8
83.5
-
-
-
-
-
-
-
-
-
DayT-Ti
DayT-S
DayT-B
DayT-B↑ 
CET 300 1024 5.7
22.1
86.6
86.6
1.3
4.6
17.6
52.8
DeiT  224
224
224
224
224
224
224
384
72.2
79.8
81.8
83.1
74.5高さ
81.2
高さ
83.4
高さ
84.5
高さ
-
-
99.1
99.2
-
-
90.8
91.4
ConViT-Ti
ConViT-S
ConViT-B 
CET 300 512 6
27
86
1
5.4
17
DeiT  224
224
224
224
224
224
73.1
81.3
82.4
-
-
-
-
-
-
-
-
-
ローカルビット-T
ローカルビット-S 
CET 300 1024 5.9
22.4
1.3
4.6
DeiT  224
224
224
224
74.8
80.8
-
-
-
-
-
-
CeiT-T
CeiT-S
CeiT-T↑
CeiT-S↑ 
CET 300 1024 6.4
24.2
6.4
24.2
1.2
4.5
3.6
12.9
DeiT  224
224
224
224
224
224
384
384
76.4
82
78.8
83.3
-
-
-
-
98.5
99
98.5
99.1
88.4
90.8
88
90.8
レスト-小
レスト-ベース
レスト-大 
CET 300 2048年 13.66
30.28
51.63
1.9
4.3
7.9
DeiT  224
224
224
224
224
224
79.6
81.6
83.6
-
-
-
-
-
-
-
-
-
ViTC-1GF
ViTC-4GF
ViTC-18GF
ViTC-36GF 
CET 400 2048
2048
1024
512
4.6
17.8
81.6
167.8
1.1
4
17.7
35
DeiT、PVT  224
224
224
224
224
224
224
224
75.3
81.4
83
84.2
-
81.2
84.9
85.8
-
-
-
-
-
-
-
-
CoAtNet-0
CoAtNet-1
CoAtNet-2
CoAtNet-3
CoAtNet-4-E150↑ 
CET 300/90 4096 25
42
75
168
275
4.2
8.4
15.7
34.7
189.5
- 224
224
224
224
224
224
224
224
224
384
81.6
83.3
84.1
84.5
-
-
-
87.1
87.6
88.4
-
-
-
-
-
-
-
-
-
-
TNT-S
TNT-B
TNT-S↑
TNT-B↑ 
TET 300 1024 23.8
65.6
23.8
65.6
5.2
14.1
-
-
DeiT  224
224
224
224
224
224
384
384
81.3
82.8
83.1
83.9
-
-
-
-
-
-
98.7
99.1
-
-
90.1
91.1
Swin-T
Swin-S
Swin-B
Swin-B↑
Swin-L↑ 
TET 300/60 1024/4096 29
50
88
88
197
4.5
8.7
15.4
47
103.9
DeiT  224
224
224
224
224
224
224
224
384
384
81.3
83
83.3
84.2
-
-
-
85.2
86.0
86.4
-
-
-
-
-
-
-
-
-
-
VOLO-D1
VOLO-D2
VOLO-D3
VOLO-D4
VOLO-D5
VOLO-D3↑
VOLO-D4↑
VOLO-D5↑ 
TET 300 1024 27
59
86
193
296
86
193
296
6.8
14.1
20.6
43.8
69
67.9
197
304
LV-ViT  224
224
224
224
224
224
224
224
224
224
224
224
224
448
448
448
84.2
85.2
85.4
85.7
86.1
86.3
86.8
87
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
T2T-ViT-14
T2T-ViT-19 
TET 310 1024 21.5
39.2
5.2
8.9
- 224
224
224
224
81.5
81.9
-
-
97.5
98.3
88.4
89
PVT-Tiny
PVT-Small
PVT-Medium
PVT-Large 
HT 300 128 13.2
24.5
44.1
61.4
1.9
3.8
6.7
9.8
DeiT  224
224
224
224
224
224
224
224
75.1
79.8
81.2
81.7
-
-
-
-
-
-
-
-
-
-
-
-
PiT-Ti
PiT-XS
PiT-S
PiT-B 
HT 300 1024 4.9
10.6
23.5
73.8
0.7
1.4
2.9
12.5
DeiT  224
224
224
224
224
224
224
224
73
78.1
80.9
82
74.6Υ
79.1
Υ
81.9
Υ
84
Υ
-
-
-
-
-
-
-
-
CvT-13
CvT-21
CvT-13↑
CvT-21↑
CvT-W24↑ 
HT 300 2048 20
32
20
32
277
4.5
7.1
16.3
24.9
193.2
ViT , BiT  224
224
224
224
224
224
224
384
384
384
81.6
82.5
83
83.3
-
-
-
83.3
84.9
87.7
-
-
-
-
-
-
-
-
-
-
DeepViT-S
DeepViT-L 
DT 300 256 27
55
6.2
12.5
DeiT , ResNest  224
224
224
224
82.3
83.1
-
-
-
-
-
-
CaiT-XS-24
CaiT-S-24
CaiT-S-36
CaiT-M-24
CaiT-M-36 
DT 400 1024 26.6
46.9
68.2
185.9
270.9
5.4
9.4
13.9
36
53.7
DeiT  224
224
224
224
224
224
224
224
224
224
81.8
82.7
83.3
83.4
83.8
82.0Υ
83.5Υ
84Υ
84.7Υ
85.1Υ
-
-
99.2
-
99.3
-
-
92.2
-
93.3
DiversePatch-S12
DiversePatch-S24
DiversePatch-B12
DiversePatch-B24
DiversePatch-B12↑ 
DT 400 1024 22
44
86
172
86
-
-
-
-
-
DeiT  224
224
224
224
224
224
224
224
224
384
81.2
82.2
82.9
83.3
84.2
-
-
-
-
-
-
-
-
-
-
-
-
Refined-ViT-S
Refined-ViT-M
Refined-ViT-L
Refined-ViT-M↑
Refined-ViT-L↑ 
DT 300 256

512
25
55
81
55
81
7.2
13.5
19.1
49.2
69.1
DeiT  224
224
224
224
224
224
224
224
384
384
83.6
84.6
84.9
85.6
85.7
-
-
-
-
-
-
-
-
-
-
-
-
-
-
CrossViT-9
CrossViT-15
CrossViT-18
CrossViT-18*
CrossViT-15*↑
CrossViT-18*↑ 
M 300 4096 8.6
27.4
43.3
44.3
28.5
44.6
1.8
5.8
9.03
9.5
21.4
32.4
DeiT  224
224
224
224
224
224
224
224
224
224
384
384
73.9
81.5
82.5
82.8
83.5
83.9
-
-
-
-
-
-
-
99
99.11
-
-
-
-
90.77
91.36
-
-
-
LV-ViT-S
LV-ViT-M
LV-ViT-L
LV-ViT-M↑
LV-ViT-L↑ 
DAT 300 1024 26
56
150
56
150
6.6
16
59
42.2
157.2
LV-ViT  224
224
288
224
288
224
224
288
384
448
83.3
84
85.3
85.4
85.9
-
-
-
-
-
-
-
-
-
-
-
-

2. 用于目标检测的Transformer

3. 用于分割的Transformer

おすすめ

転載: blog.csdn.net/qq_39707285/article/details/128914081