Progrès des méthodes d'apprentissage en profondeur pour le post-traitement de l'encodage et du décodage vidéo

1 introduction de fond

Les algorithmes de compression vidéo et d'image avec perte entraîneront des distorsions et des effets plus graves. Par exemple, les stratégies de codage par blocs entraîneront des effets de bloc; l'absence de composants haute fréquence entraînera une image compressée plus floue et des effets de sonnerie, changement de couleur, etc. Cela est particulièrement évident lorsque le codage est dans une mauvaise configuration de codage (faible débit binaire). Ces effets réduiront sérieusement l'expérience de l'utilisateur, donc comment supprimer ces effets ou affaiblir l'impact de ces effets est devenu un problème important.

Dans la nouvelle génération de norme de codage vidéo HEVC (High Efficiency Video Coding), deux schémas de filtrage de boucle sont utilisés pour réduire ces effets: filtre de déblocage et SAO (compensation adaptative d'échantillon). Du point de vue du nom, le filtre de déblocage cible principalement l'effet de blocage de la vidéo endommagée. SAO utilise un décalage supplémentaire pour compenser les autres effets. Ce décalage est calculé par le codeur et transmis au décodeur pour aider au décodage avec le flux de code. [1] montre que SAO peut obtenir une réduction de 3,5% du débit BD.

Avec la popularité croissante de l'intelligence artificielle ces dernières années, son apprentissage en profondeur algorithmique joue également un rôle dans un plus large éventail de domaines. Il utilise un réseau de neurones profond pour extraire la représentation des données et les combine en fonctionnalités sémantiques de haut niveau pour construire un mappage non linéaire. Dans le domaine de la vision par ordinateur, la reconnaissance d'image, l'étiquetage d'image, le suivi des cibles et d'autres tâches de haut niveau ont obtenu de bons résultats. Dans les tâches de vision de bas niveau telles que la super-résolution d'image et la réduction du bruit, l'apprentissage en profondeur a progressivement montré ses performances supérieures .

2 Application de l'apprentissage profond au post-traitement vidéo

À l'heure actuelle, l'application de l'apprentissage en profondeur dans le post-traitement vidéo peut être divisée en deux catégories, l'une est le filtrage en boucle et l'autre est le filtrage hors boucle. Le filtrage en boucle fait référence à l'utilisation d'un réseau d'apprentissage en profondeur pour remplacer le module de post-traitement d'origine dans la boucle de codage HEVC afin d'améliorer les performances de codage, comme le montre la figure 1.

 Figure 1 Schéma du filtrage en boucle, utilisant IFCNN pour remplacer le filtrage SAO d'origine [2]

Le filtrage hors boucle n'a pas besoin d'être remplacé dans la boucle de codage HEVC, et le train de bits normalement codé peut être filtré par le réseau neuronal une fois le décodage terminé à l'extrémité du décodage. Au niveau du codage, certaines informations de paramètres de décodage auxiliaires peuvent également être fournies, qui sont incorporées dans le flux de code en tant qu'informations secondaires pour la transmission.

2.1 Filtrage en boucle

2.1.1 IFCNN

Park et Kim [2] ont d'abord proposé une méthode d'utilisation d'un réseau neuronal convolutif pour le filtrage en boucle dont la structure spécifique est illustrée à la figure 1. Le réseau neuronal est utilisé pour remplacer le SAO dans la technologie de post-traitement HEVC. La structure du réseau est illustrée à la figure 2.

Figure 2 Schéma de la structure du réseau IFCNN

Le réseau dans son ensemble se compose de trois couches convolutives, et l'idée de réseau résiduel est introduite, de sorte que le réseau neuronal n'a pas besoin de générer directement des images de haute qualité, mais doit seulement apprendre les résidus entre les images de haute qualité et des images endommagées compressées, ce qui accélère la vitesse d'entraînement et assure la convergence. Afin de rendre l'apprentissage du réseau neuronal plus adapté au codage lui-même, l'auteur a fait désactiver la séquence vidéo de l'encodeur SAO et utiliser le fichier YUV reconstruit et sa combinaison Ground_truth correspondante comme ensemble d'apprentissage.

L'auteur a formé séparément le modèle de réseau pour le mode ALL-Intra, le mode LDP et RA, puis l'a intégré dans le logiciel de référence HEVC HM 16.0. Les résultats expérimentaux sont présentés dans le tableau 1.

Tableau 1 Test de performance objectif IFCNN (par rapport à l'algorithme de codage d'origine)

L'un des inconvénients de cette technologie est que les ensembles de formation et de test sont sélectionnés à partir de la même séquence vidéo. Bien que différentes images soient prises, le contenu et la distribution entre un ensemble d'images de séquence et d'images sont très similaires, de sorte que la capacité de promotion de la formation modèle est insuffisant, mais il prouve également le grand potentiel du deep learning dans le domaine du post-traitement vidéo.

2.1.2 VRCNN

Dai et al. [3] ont proposé une structure de réseau neuronal convolutif de taille multi-filtre pour le post-traitement sur la base de l'IFCNN, et ont utilisé le modèle de réseau pour remplacer complètement le module de post-traitement afin d'améliorer les performances de codage. L'auteur fait référence à l'idée de GoogleNet [4], tout en augmentant la profondeur du réseau, il étend également la largeur du réseau, c'est-à-dire en utilisant une combinaison parallèle de plusieurs fenêtres de convolution de petite taille pour remplacer un seul grand -size noyau de convolution, et convolutions de différentes tailles Le noyau peut extraire des caractéristiques d'image de différents niveaux, donc en utilisant cette méthode, plusieurs caractéristiques de l'image peuvent être intégrées dans une couche, ce qui est bénéfique pour la reconstruction d'image. La structure du réseau est illustrée à la figure 3.

Figure 3 Structure du réseau VRCNN [3]

Dans cette structure, les deuxième et troisième couches du réseau utilisent deux noyaux de convolution parallèles de tailles différentes pour extraire les cartes de caractéristiques et les intégrer par canal. L'idée de connexion résiduelle est toujours utilisée ici: le réseau de neurones n'a besoin que d'apprendre le résidu entre l'image endommagée et Ground_Truth, accélérant ainsi la convergence du réseau et affaiblissant l'impact du surajustement. Afin d'améliorer la capacité de promotion du modèle, l'auteur utilise ici des images naturelles comme ensemble de formation.Les images naturelles ont un large éventail de caractéristiques et de fonctionnalités statistiques, de sorte qu'elles peuvent couvrir la plupart des scénarios vidéo. Désactivez le filtre de déblocage et l'encodeur HM de SAO sur l'entrée d'image, et le flux de code reconstruit peut être utilisé comme données d'entrée d'apprentissage. Dans cette technologie, seul le mode de codage ALL-Intra est testé, et chaque séquence est testée uniquement pour la première trame. Les performances de test objectif sont indiquées dans le tableau 2.

Tableau 2 Résultats des tests objectifs du VRCNN (avec l'algorithme de post-traitement d'origine)

2.1.3 MMS-Net

Dans ICIP 2017, Kang et Kim et al. [5] ont proposé un modèle de convolution multi-modèle / multi-échelle pour améliorer les performances de post-traitement.La structure CNN multi-échelle peut améliorer efficacement les performances de reconstruction d'image. De plus, les informations CTU (coding tree unit) de la vidéo encodée peuvent guider le réseau pour détecter et supprimer correctement les artefacts de blocage. L'auteur utilise également des paramètres de codage tels que les informations CU (coding unit) et TU (transformation unit) pour aider à reconstruction. Le modèle de réseau est illustré à la figure 4.

 Figure 4 Modèle MMS-Net [5]

Le CP dans le diagramme de structure fait référence aux paramètres de codage et aux informations spécifiques de localisation CU et TU dans l'article. D fait référence à l'image endommagée, Rk représente l'image restaurée par le modèle à l'échelle k-ème et G représente Ground_truth. Les paramètres de codage extraits doivent d'abord être prétraités et définir la valeur du pixel de limite CU (ou TU) sur 2 et le pixel de zone non-frontière sur 1, comme illustré à la figure 5. Entrez ensuite la carte CP traitée dans un réseau adaptatif (voir le coin supérieur gauche de la figure 4), convertissez les informations CP dans l'espace de caractéristiques de l'image et projetez-la dans une carte de caractéristiques à canal unique. La carte des caractéristiques est multipliée par l'élément d'image endommagé en entrée par élément et est entrée dans le réseau à plusieurs échelles en tant qu'informations de contournement.

Figure 5 Un exemple d'extraction d'informations CU

La restauration d'image à plusieurs échelles peut être vue comme un processus en couches dans un espace à plusieurs échelles, ce qui peut faire en sorte que l'image restaurée conserve certains détails plus petits à l'échelle fine et conserve une dépendance à long terme sur l'échelle plus grossière. Dans la figure 4, vous pouvez voir que le modèle a un réseau continu de deux échelles. Le réseau à grande échelle récupère l'image endommagée à partir de l'image d'entrée de demi-taille, puis la modifie et la restaure à travers le réseau fin. Sur la figure 4, le réseau à demi-échelle (Half-scale Network), la trame d'entrée est sous-échantillonnée par une couche convolutionnelle avec une taille de pas de 2 sans qu'il soit nécessaire d'ajuster la taille de l'image en dehors du réseau, et enfin la couche de déconvolution est utilisé pour le convertir sur échantillonnage à la taille d'image d'origine, la structure d'interpolation intégrée dans le réseau simplifie également le traitement de l'ensemble du système. Le corps principal du réseau fait référence à Res-Net et utilise la méthode de mise en cascade de plusieurs blocs résiduels pour accélérer la convergence.

L'auteur utilise 28 vidéos HD dans Xiph.org Video Test Media [6] comme ensemble d'apprentissage et la séquence reconstruite en mode intra plein cadre comme données d'entrée. La performance du test dans la condition intra-image plein écran est indiquée dans le tableau 3.

Tableau 3 Comparaison de MMS-Net et d'autres performances du réseau

 2.2 Filtrage hors boucle

Les trois méthodes de filtrage en boucle brièvement décrites ci-dessus remplacent toutes une partie ou la totalité des modules de post-traitement dans la boucle de codage HEVC. Le flux de code codé par cette méthode doit être traité via le réseau neuronal lors du décodage. L'idée de filtrer en dehors de la boucle sera présentée ci-dessous.

Wang et Chen et al. [7] ont proposé d'ajouter un modèle de réseau neuronal après le décodeur pour améliorer la qualité de la reconstruction vidéo. Dans le même temps, comme HEVC prend en charge plusieurs tailles d'unités de transformation (TU), les informations TU dans le flux de code sont utilisées pour sélectionner la taille de bloc d'image de l'ensemble d'apprentissage, et l'auteur a également expliqué que cette méthode est plus robuste que le résultats obtenus par des données d'entraînement échantillonnées uniformément. La structure de réseau utilisée dans l'article est illustrée à la figure 6.

Figure 6 Structure du réseau DCAD

Reportez-vous au réseau VDSR à super-résolution profond, qui empile 10 couches de convolution et n'utilise que ReLU comme unité d'activation, et le noyau de convolution de chaque couche est 3 * 3. Comme VRCNN, 400 images naturelles sont utilisées comme ensemble d'apprentissage et compressées avec HM 16.0 comme données d'apprentissage d'entrée. Le modèle entraîné est testé dans quatre modes: AI, LDP, LDB et RA. Les résultats du test sont présentés dans le tableau 4.

Tableau 4 Résultats des tests de DCAD dans quatre modes de codage (par rapport à la référence HEVC)

 

L'équipe de recherche de l'Université Jiaotong de Shanghai a également proposé une structure de codec de filtre de post-traitement hors boucle [8], similaire à DCAD, utilisant VDSR comme processus d'apprentissage du modèle de réseau. Mais sur cette base, un module de classification est ajouté devant le codeur pour extraire les informations statistiques de chaque trame d'image et utiliser l'algorithme K-means pour la classer. L'architecture spécifique est illustrée à la figure 7.

Figure 7 Architecture du codec

Considérant que l'application de CNN dans la reconstruction d'image est essentiellement un processus d'extraction et de réorganisation des caractéristiques statistiques sous-jacentes de l'image, il est raisonnable d'effectuer une classification statistique sur la séquence d'entrée à l'avance. Les informations de classification seront également intégrées dans le flux de code en tant qu'informations auxiliaires. Le module de post-traitement extraira également ces informations auxiliaires et sélectionnera différents modèles à traiter.

Plus de détails sur cet article peuvent être trouvés dans les articles précédents: Nouvelles façons d'améliorer le codage vidéo Technologie de pré / post-traitement dynamique axée sur le codage des performances

3 résumé

Le modèle d'apprentissage en profondeur filtre efficacement la vidéo compressée en apprenant le mappage de bout en bout entre l'image endommagée et ground_truth. Grâce à la description du schéma ci-dessus, nous pouvons voir le grand potentiel de l'apprentissage profond dans le domaine du filtrage vidéo. Cependant, la technologie actuellement proposée fonctionne principalement en mode intra plein cadre: une fois la commande de débit activée, les performances deviennent instables. Par conséquent, d'une part, une stratégie de formation ou une structure de réseau plus adaptée au codage inter-trame doit être envisagée; d'autre part, les caractéristiques statistiques de l'image et de la vidéo doivent être prises en compte et ajoutées au modèle pour aider à la reconstruction.

4 Références

[1] Fu CM, Alshina E, Alshin A, et al. Exemple de décalage adaptatif dans la norme HEVC [J]. IEEE Transactions on Circuits and Systems for Video technology, 2012, 22 (12): 1755-1764.

[2] Park WS, Filtrage en boucle basé sur Kim M. CNN pour l'amélioration de l'efficacité du codage [C] // Atelier de traitement d'images, de vidéos et de signaux multidimensionnels (IVMSP), 2016 IEEE 12th. IEEE, 2016: 1-5.

[3] Dai Y, Liu D, Wu F. Une approche de réseau neuronal convolutif pour le post-traitement dans le codage intra hevc [C] // Conférence internationale sur la modélisation multimédia. Springer, Cham, 2017: 28-39.

[4] Szegedy C, Liu W, Jia Y et al. Aller plus loin avec les convolutions [C] // Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes. 2015: 1-9.

[5] Kang J, Kim S, Lee K M. CONCEPTION DE FILTRES EN BOUCLE CONVOLUTIONNELLE MULTI-MODAL / MULTI-ÉCHELLE CONVOLUTIONNELLE POUR CODEC VIDÉO DE NOUVELLE GÉNÉRATION [J].

[6] «Xiph.org video test media», disponible sur https://media.xiph.org/video/derf/.

[7] Wang T, Chen M, Chao H. Une nouvelle méthode basée sur l'apprentissage en profondeur pour améliorer l'efficacité du codage à partir de l'extrémité du décodeur pour HEVC [C] // Data Compression Conference (DCC), 2017. IEEE, 2017: 410- 419.

[8] C. Li, Li Song, R. Xie, W. Zhang, «CNN Based Post-Processing to Improve HEVC», IEEE International Conference on Image Processing (ICIP), Beijing, Chine, 17-20 septembre 2017 .

Je suppose que tu aimes

Origine blog.csdn.net/BigDream123/article/details/113001791
conseillé
Classement