YOLOv5/YOLOv8 verbesserte praktische Experimente: Original neue *** Subpixel-Faltung *** optimierte Upsampling-Technologie zur Verbesserung des Zielerkennungseffekts (Plug and Play)

einführen

  Dies ist ein Subpixel-Faltungsmodul (SubPixel Convolution) für das Upsampling. Es handelt sich um eine gängige Bild-Superauflösungstechnologie und kann auch auf das Feature-Map-Upsampling von Zielerkennungsmodellen (wie YOLO) angewendet werden. Im Folgenden werde ich das Prinzip dieses Moduls und seine Anwendung in YOLO in mehreren Teilen ausführlich vorstellen:

  Moduleinführung: SubPixelConvolution_s ist ein PyTorch-Modul, das eine tiefenweise trennbare Faltung (DWConv) und eine Pixel-Shuffling-Operation (PixelShuffle) umfasst. Die nach der Tiefe trennbare Faltung ist eine rechnerisch effizientere Faltung mit weniger Parametern. Sie führt zunächst eine räumliche Faltung für jeden Eingabekanal separat durch und verwendet dann eine 1x1-Faltung, um das Ergebnis kanalmäßig zu mischen. Die Pixel-Shuffling-Operation ist eine Upsampling-Methode, die die Tiefeninformationen (Kanalinformationen) in der Eingabe-Feature-Map mit niedriger Auflösung in räumliche Informationen umwandelt, um eine hochauflösende Ausgabe zu erhalten.

  Prinzipanalyse: Der Vorgang des Pixel-Shuffling besteht darin, die Anzahl der Kanäle der Feature-Map durch einen bestimmten Vorgang zu reduzieren und gleichzeitig die Höhe und Breite der Feature-Map zu erhöhen. Unter der Annahme, dass die Größe der Eingabe-Feature-Map beispielsweise [b,c,h,w] beträgt, kann die Pixel-Shuffling-Operation sie in die Größe von [b,c/(rr),hr,w*r] konvertieren, wobei r ist das obige Abtastverhältnis. Auf diese Weise kann der Pixel-Shuffling-Vorgang die Gesamtzahl der Elemente in der Feature-Map unverändert lassen und gleichzeitig einen Teil der Kanalinformationen in räumliche Informationen umwandeln, wodurch der Zweck des Upsamplings erreicht wird.

  Anwendung in YOLO: In YOLO ist es notwendig, Feature-Maps auf niedriger Ebene hochzurechnen und sie mit Feature-Maps auf hoher Ebene zu verschmelzen, um Zielerkennungsfunktionen in mehreren Maßstäben zu erhalten. Normalerweise wird dieses Upsampling durch Entfaltung (Deconvolution) oder Interpolation (Interpolation) erreicht, aber diese beiden Methoden können zu einer gewissen Unschärfe oder Verzerrung in der Upsampling-Feature-Map führen. Im Gegensatz dazu kann die Subpixel-Faltung die ursprünglichen Informationen der Feature-Map besser bewahren

おすすめ

転載: blog.csdn.net/qq_44224801/article/details/131670316