(ECCV-2020) Apparence préservant la convolution 3D pour la ré-identification des personnes par vidéo (3)

4 AP3D pour ReID basé sur la vidéo

Pour étudier l'efficacité d'AP3D pour le ReID basé sur la vidéo, cet article utilise le formulaire 2D ConvNet (C2D) comme méthode de base et l'étend à AP3DConvNet en utilisant l'AP3D proposé. Les détails de l'architecture du réseau sont décrits au paragraphe 4.1, puis la fonction de perte est introduite au paragraphe 4.2.

4.1 Architectures de réseau


Base de référence C2D Utilisez ResNet-50 pré-formé sur ImageNet comme épine dorsale et supprimez l'opération de sous-échantillonnage de l'étape 5 après [28] pour enrichir la granularité. Étant donné a avec TTUn clip vidéo d'entrée de T images, qui produit une forme T × H × W × 2048 T \times H \times W \times 2048J×H×O×2 0 4 8 tenseurs. Aprèscommun spatiale maximaleettemporelle moyenne, une caractéristique de 2048 dimensions est générée. Les caractéristiques suivantes [13] sont normalisées à l'aide de l'opération BatchNorm avant d'être introduites dans le classifieur. La ligne de base C2D n'implique aucune opération temporelle, à l'exception de lacommun moyenne temporelle.

AP3D ConvNet Remplacez une partie des blocs résiduels 2D par des blocs résiduels AP3D et convertissez C2D en AP3D ConvNet pour l'apprentissage des caractéristiques spatio -temporelles . Plus précisément, un, la moitié ou tous les blocs résiduels sont remplacés en une étape de ResNet, et les résultats sont rapportés à la section 5.4.

4.2 Fonction objectif


Suivant [30], la perte d'entropie croisée et la perte de triplet sont combinées pour l'apprentissage de la représentation spatio-temporelle. Étant donné que la perte d'entropie croisée optimise principalement les caractéristiques dans le sous-espace angulaire [31], pour maintenir la cohérence, une triple perte est effectuée en utilisant la distance cosinus .

5 expériences

5.1 Ensembles de données et protocole d'évaluation


base de données. La méthode proposée est évaluée sur trois ensembles de données ReID basés sur la vidéo, à savoir MARS, DukeMTMC-VideoReID et iLIDS-VID. Étant donné que MARS et DukeMTMC-VideoReID ont une répartition train/test fixe, les études d'ablation sont principalement effectuées sur ces deux ensembles de données pour plus de commodité. En outre, les résultats finaux d'iLIDS-VID sont rapportés à des fins de comparaison avec l'état de l'art.

Accord d'évaluation. CMC et mAP ont été utilisés comme paramètres d'évaluation.

5.2 Détails de mise en œuvre


Dans la phase d'apprentissage, pour chaque piste vidéo, 4 images sont échantillonnées au hasard avec une foulée de 8 images pour former un segment vidéo . 8 personnes par lot, 4 clips vidéo par personne. Redimensionner toutes les images vidéo à 256 × 128 256 \times1282 5 6×1 2 8 pixels et utilisez le retournement horizontal pour améliorer les données. Pour l'optimiseur, Adam avec une décroissance de poids de 0,0005 a été utilisé pour mettre à jour les paramètres. Au total, le modèle a été entraîné pendant 240 époques. Le taux d'apprentissage est initialisé à3 × 1 0 − 4 3 \times 10^{-4}3×1 04 multiplié par 0,1 toutes les 60 époques.

Lors de la phase de test, pour chaque tracklet vidéo, il est d'abord divisé en plusieurs clips vidéo de 32 images . La représentation caractéristique de chaque clip vidéo est ensuite extraite, et la caractéristique vidéo finale est la représentation moyenne de tous les clips vidéo. Après l'extraction des entités, calculez la distance cosinus entre les entités de la requête et de la galerie, et effectuez une récupération en fonction de la distance cosinus.

5.3 Comparaison avec des approches apparentées


AP3D vs convolution 3D d'origine Pour vérifier l'efficacité et la capacité de généralisation de l'AP3D proposé, les blocs résiduels I3D et P3D sont implémentés en utilisant respectivement AP3D et la convolution 3D d'origine. Ensuite, 1 bloc 2D est remplacé par un bloc 3D pour 2 blocs résiduels dans les étapes 2 et 3 de C2D ConvNets, pour un total de 5 blocs résiduels. Comme le montre le tableau 1, par rapport à la ligne de base C2D, I3D et P3D affichent des résultats proches ou inférieurs en raison de dommages d'apparence. Grâce à la représentation d'apparence alignée sur APM, la version AP3D correspondante améliore de manière significative et cohérente les performances sur les deux ensembles de données avec presque aucun paramètre supplémentaire et une complexité de calcul supplémentaire. Plus précisément, AP3D gagne environ 1 % de top-1 et 2 % de mAP par rapport à I3D et P3D sur l'ensemble de données MARS. Notez que l'amélioration mAP sur DukeMTMC-VideoReID n'est pas aussi importante que celle sur MARS. Une explication possible est que les boîtes englobantes des échantillons vidéo dans l'ensemble de données DukeMTMC-VideoReID sont annotées manuellement et que la dislocation de l'apparence n'est pas trop grave, de sorte que l'amélioration d'AP3D n'est pas très significative.

Tableau 1. Comparaison de l'AP3D et de la convolution 3D d'origine

Tableau 1

Comparé à d'autres méthodes, AP-P3D-C fonctionne le mieux dans la plupart des paramètres. Par conséquent, sauf indication contraire, les expériences suivantes sont réalisées sur la base de APP3D-C (AP3D en abrégé).

AP3D et non local : APM et non local (NL) dans AP3D sont des méthodes basées sur les graphes. Nous insérons les mêmes 5 blocs NL dans les ConvNets C2D et comparons AP3D avec NL dans le tableau 2. On peut voir qu'AP3D a des paramètres et une complexité de calcul inférieurs sur les deux ensembles de données, et ses performances sont meilleures que NL.

Tableau 2 Comparaison avec NL et d'autres méthodes de modélisation des informations temporelles

Tableau 2

Pour une comparaison plus juste, une attention contrastive pour l' intégration non locale (CA-NL) et une combinaison de NL et P3D (NL-P3D) est également mise en œuvre. Comme le montre le tableau 2, CA-NL obtient les mêmes résultats que NL sur MARS, mais reste inférieur à AP3D. Sur DukeMTMC-VideoReID, le top 1 de CA-NL est encore plus bas que NL. L'attention contrastive dans APM est plus susceptible d'éviter la propagation des erreurs en raison d'un enregistrement imparfait. Cependant, l'essence de NL est la convolution de graphes sur des graphes spatio-temporels , et non l'enregistrement de graphes. Donc NL ne peut pas fonctionner avec l'Attention Contrastive. De plus, étant donné que P3D ne peut pas gérer le désalignement d'apparence dans ReID basé sur la vidéo, NL-P3D affiche des résultats proches de NL et moins bons qu'AP3D. NL-AP3D réalise d'autres améliorations grâce à l'apparence alignée APM. Ce résultat suggère que AP3D et NL sont complémentaires .

AP3D vs autres méthodes de modélisation de l'information temporelle L'AP3D est également comparée à la convolution 3D déformable et au CNN+LSTM. Pour une comparaison équitable, le même squelette et les mêmes hyperparamètres sont utilisés. Comme le montre le tableau 2, AP3D surpasse de manière significative les deux méthodes sur les deux ensembles de données. Cette comparaison démontre une fois de plus l'efficacité d'AP3D dans l'apprentissage des repères temporels .

5.4 Étude d'ablation


Positions effectives pour placer les blocs AP3D Le tableau 3 compare les résultats du remplacement des blocs résiduels par des blocs AP3D à différentes étapes de C2D ConvNet. A chacune de ces étapes, l'avant-dernier bloc résiduel est remplacé par un bloc AP3D. On peut voir que l'amélioration du placement des blocs AP3D dans stage2 et stage3 est similaire. En particulier, le résultat du placement d'un seul bloc AP3D en stage2 ou stage3 dépasse le résultat du placement de 5 blocs P3D en stage2,3. Cependant, le placement des blocs AP3D au stade 1 ou au stade 4 a donné de moins bons résultats que les lignes de base C2D. Il est probable que les fonctionnalités de bas niveau de l'étape 1 ne soient pas suffisantes pour fournir des informations sémantiques précises, de sorte que l'APM dans AP3D n'aligne pas bien les représentations d'apparence. En revanche, les caractéristiques de l'étape 4 sont insuffisantes pour fournir des informations spatiales précises, de sorte que l'amélioration de l'alignement de l'apparence est également limitée. Par conséquent, seuls les blocs résiduels de l'étape 2 et de l'étape 3 sont pris en compte pour le remplacement.

Combien de blocs doivent être remplacés par AP3D Le tableau 3 montre également les résultats pour plus de blocs AP3D. Nous étudions le remplacement de 2 blocs (1 par étape), 5 blocs (la moitié des blocs résiduels en étape2 et étape3), et 10 blocs (tous les blocs résiduels en étape2 et étape3) dans C2D ConvNet. On peut voir que plus de blocs AP3D conduisent généralement à des performances plus élevées. 更多的 AP3D 块可以执行更多的时间通信, ce qui est difficile à réaliser avec les modèles C2D. Pour les résultats à 10 blocs, la dégradation des performances peut être due à un surajustement causé par un trop grand nombre de paramètres.

Tableau 3 Résultats du remplacement de différents nombres de blocs résiduels à différentes étapes par des blocs AP3D

Tableau 3

Efficacité d'AP3D sur différents backbones L'efficacité et la capacité de généralisation d'AP3D sur différents backbones sont également étudiées. Plus précisément, la moitié des blocs résiduels des étapes 2 et 3 de ResNet-18 et ResNet-34 sont remplacés par des blocs AP3D. Comme le montre le tableau 4, AP3D peut améliorer de manière significative et cohérente les résultats des deux architectures sur les deux ensembles de données. En particulier, AP3D-ResNet-18 surpasse ses homologues ResNet-18 (C2D et P3D) et le ResNet-34 plus profond sur l'ensemble de données MARS, ce qui double presque le nombre de paramètres et la complexité de calcul du modèle. Cette comparaison montre que l'efficacité d'AP3D ne dépend pas de paramètres supplémentaires et de la charge de calcul.

Tableau 4. Résultats pour différents backbones

Tableau 4

L'efficacité de l'attention contrastive Comme décrit dans la section 3.2, l'attention contrastive est utilisée pour éviter la propagation erronée d'un enregistrement imparfait causé par des informations d'apparence asymétriques. Pour vérifier l'efficacité, nous reproduisons AP3D avec/sans attention contrastive (CA), et les résultats expérimentaux sur l'ensemble de données généré par le détecteur de piétons MARS sont présentés dans le tableau 5. On peut voir que AP-I3D et AP-P3D peuvent encore améliorer considérablement les performances des lignes de base I3D et P3D sans attention contrastive. L'application d'une attention contrastive sur les cartes de caractéristiques reconstruites peut encore améliorer les résultats de AP-I3D et AP-P3D.

Tableau 5. Résultats AP3D sur MARS avec et sans CA

tableau 5

L'influence du facteur d'échelle s Comme décrit dans la section 3.2, plus le facteur d'échelle s est grand, plus le poids des pixels à forte similarité est élevé. Les résultats expérimentaux pour différents s sur l'ensemble de données MARS sont présentés à la Fig. 6. On peut voir qu'AP3D avec différents facteurs d'échelle s'améliore continuellement par rapport à la ligne de base et atteint les meilleures performances lorsque s = 4.

Image 6

Figure 6 Résultats pour différents s sur l'ensemble de données MARS

5.5 Visualisation


Sélectionnez des échantillons non alignés et visualisez les cartes de caractéristiques originales et reconstruites à l'étape 3 après l'APM dans la figure 7. On peut voir qu'avant l'APM, les régions en surbrillance de la carte d'entités centrale et des cartes d'entités adjacentes sont principalement concentrées sur leurs premiers plans respectifs et ne sont pas alignées. Après l'APM, les régions en surbrillance des cartes d'entités reconstruites sont alignées avec le premier plan du cadre central correspondant. Cela peut vérifier davantage le mécanisme d'alignement de l'APM.

Figure 7

Figure 7. Visualisation des cartes d'entités originales et reconstruites après APM

5.6 Comparaison avec les méthodes de pointe


La méthode proposée est comparée aux méthodes ReID basées sur la vidéo de pointe utilisant la même dorsale sur les ensembles de données MARS, DukeMTMC-VideoReID et iLIDS-VID. Les résultats sont résumés dans le tableau 6. Notez que ces méthodes de comparaison diffèrent à bien des égards, par exemple en utilisant des informations provenant de différentes modalités. Cependant, en utilisant uniquement RVB et une stratégie d'intégration de fonctionnalités simple (c'est-à-dire la mise en commun moyenne temporelle), l'AP3D proposé surpasse systématiquement toutes ces méthodes sur ces trois ensembles de données. En particulier, AP3D atteint 85,1 % mAP sur l'ensemble de données MARS. D'autres améliorations peuvent être obtenues en combinaison avec Non local.

Tableau 6. Comparaison avec l'état de l'art sur les ensembles de données MARS, DukeMTMC-VideoReID et iLIDS-VID. "Flow" signifie flux optique, "Att." signifie attribut

Tableau 6

6. Conclusion

Dans cet article, nous proposons une nouvelle méthode AP3D basée sur la vidéo ReID. AP3D se compose d'APM et d'un noyau de convolution 3D. L'alignement de l'apparence entre les cartes d'entités adjacentes est garanti par APM, et la convolution 3D ultérieure peut modéliser les informations temporelles tout en maintenant la qualité de la représentation de l'apparence. De cette manière, l'AP3D proposé résout le problème de rupture d'apparence de la convolution 3D d'origine. Il est facile de combiner AP3D avec les ConvNets 3D existants. Des expériences approfondies valident l'efficacité et la capacité de généralisation d'AP3D, surpassant les méthodes de pointe sur trois ensembles de données largement utilisés. En tant que travaux futurs, nous étendrons AP3D pour en faire une opération fondamentale dans les réseaux de neurones profonds pour diverses tâches de reconnaissance vidéo.

les références

[13.] Hou, R., Ma, B., Chang, H., Gu, X., Shan, S., Chen, X. : Vrstc : ré-identification de personne par vidéo sans occlusion. Dans : CVPR (2019) 1, 5, 8, 9, 14

[28.] Sun, Y., Zheng, L., Yang, Y., Tian, ​​Q., Wang, S. : Au-delà des modèles partiels : récupération de la personne avec mise en commun raffinée des parties (et une ligne de base convolutive forte). Dans : ECCV (2018) 1, 8

[30.] Wang, G., Yuan, Y., Chen, X., Li, J., Zhou, X. : Apprentissage de caractéristiques discriminantes avec plusieurs granularités pour la réidentification d'une personne. Dans : ACM MM (2018) 9

[31.] Wang, H., Wang, Y., Zhou, Z., Ji, X., Gong, D., Zhou, J., Li, Z., Liu, W. : Cosface : perte de cosinus à grande marge pour une reconnaissance faciale profonde. Dans : CVPR (2018) 9

Je suppose que tu aimes

Origine blog.csdn.net/wl1780852311/article/details/122850194
conseillé
Classement