Migration d'âge : changements faciaux basés sur un modèle de diffusion, couvrant une couverture complète depuis les adolescents jusqu'à la vieillesse

Source : Xinzhiyuan Editeur : LRS

[Nouvelle introduction à Zhiyuan] Avec seulement quelques images et texte, vous pouvez générer des images de tout âge, et les commentaires des utilisateurs ont un taux de précision de 80 % !

Le « système de reconnaissance faciale » actuel a des capacités anti-âge très faibles. Le vieillissement du visage réduira considérablement les performances de reconnaissance et les données faciales doivent être remplacées de temps en temps.

bbf19fa3f5eb1fa6b4f2f58ae73b6cde.png

L'amélioration de la robustesse du système de reconnaissance faciale nécessite de collecter des données de haute qualité sur le vieillissement individuel. Cependant, les ensembles de données publiés ces dernières années sont généralement de petite taille et pas assez longs (par exemple environ 5 ans), ou présentent des caractéristiques différentes telles que posture, éclairage et arrière-plan. Il y a eu des changements majeurs dans des aspects tels que les données du visage.

Récemment, des chercheurs de l'Université de New York ont ​​proposé une méthode permettant de préserver les caractéristiques identitaires de différents âges grâce à un modèle de diffusion latente, qui ne nécessite que quelques échantillons de formation et peut utiliser intuitivement des « invites de texte » pour contrôler la sortie du modèle.

68d7e022d50edb9d8b98ab949f8e2b84.png

Lien papier : https://arxiv.org/pdf/2307.08585.pdf

Les chercheurs introduisent deux éléments clés : une perte de préservation de l'identité et un petit ensemble de régularisation (image, description) pour répondre aux limitations imposées par les méthodes existantes basées sur le GAN.

Dans les évaluations de deux ensembles de données de référence, CeleA et AgeDB, la méthode réduit le taux de fausses correspondances d'environ 44 % par rapport au modèle de base de pointe sur la métrique de fidélité biométrique couramment utilisée.

Suivre les changements d’âge des visages

Stand de rêve

La méthode proposée dans cet article s'appuie sur le modèle de diffusion latente DreamBooth, qui permet de placer un même sujet dans d'autres contextes (re-contextualisation) en affinant le modèle de diffusion de graphes vincentiens.

a01f5bff26a0f69c9b2f0b0ad28124f7.png

Les exigences d'entrée de Dreambooth sont plusieurs images du sujet cible, ainsi qu'une invite de texte contenant l'identifiant unique du sujet et une étiquette de classe, où l'étiquette de classe est une représentation de collection de plusieurs instances et le sujet correspond à un exemple spécifique appartenant à la classe.

L'objectif de Dreambooth est d'associer un identifiant unique à chaque agent (une instance spécifique d'une classe) puis, guidé par des invites textuelles, de recréer des images du même agent dans différents contextes.

Les étiquettes de classe doivent tirer parti des connaissances préalables du cadre de diffusion pré-entraîné pour la catégorie spécifiée. Des étiquettes de classe incorrectes ou manquantes peuvent entraîner une qualité de sortie dégradée. Les jetons uniques agissent comme des références à des sujets spécifiques et doivent être suffisamment rares pour éviter les conflits avec d'autres. notions couramment utilisées.

L'auteur original a utilisé un ensemble de moins de 3 séquences de caractères Unicode comme jetons et a utilisé T5-XXL comme tokenizer.

DreamBooth utilise une perte de préservation préalable spécifique à la classe pour augmenter la variabilité des images générées tout en garantissant un écart minimal entre l'objet cible et l'image de sortie. La perte d'apprentissage originale est la suivante :

b0ae3123b4bc71c75db2480a95851a79.png

DreamBooth peut synthétiser efficacement des images de sujets tels que des chiens, des chats et des dessins animés à l'aide d'une préservation préalable. Cependant, cet article se concentre principalement sur les images de visages avec des structures plus complexes et des textures plus détaillées.

8274792f8e4879eaf0650d549615f8d2.png

Bien que l’étiquette de classe « personne » puisse saisir des caractéristiques humaines, elle peut ne pas suffire à saisir les caractéristiques identitaires en raison des différences individuelles.

Par conséquent, les chercheurs ont introduit un terme de préservation de l’identité dans la fonction de perte, qui peut minimiser la distance entre l’image originale et les caractéristiques biométriques de l’image générée, et ont affiné le VAE avec la nouvelle fonction de perte.

7a27df2ff4222f0166c295f0ca1603ad.png

Le troisième terme de la formule représente la distance biométrique entre l'image réelle de l'objet photographié et l'image générée, où B représente la distance L1 des deux images. La même distance d'image est proche de 0. Plus la valeur est grande, plus la différence entre les deux sujets. , en utilisant VGGFace pré-entraîné comme extracteur de fonctionnalités.

ba5fb5b7b8178880c1fa3fac77434416.png

L'étape suivante consiste à l'affiner pour des objectifs spécifiques, en utilisant des VAE et des encodeurs de texte gelés tout en gardant le modèle U-Net non gelé.

3f1b1adbd3241d004c13c7e136529e78.png

UNet débruite les représentations latentes produites par l'encodeur de VAE, entraînées à l'aide d'une perte contrastive préservant l'identité.

Les chercheurs ont adopté le cadre SimCLR et ont utilisé une perte d'entropie croisée normalisée à l'échelle de la température entre des paires d'échantillons positifs et négatifs pour améliorer la représentation latente, qui est la fonction S dans la formule suivante.

ef9400ed1e0ed6c23fe2fec77480a79a.png

Calculez la perte de contraste entre les représentations latentes de l’entrée sans bruit (z0) et de la sortie débruitée (zt) avec le terme de pondération λs = 0,1 et la valeur de température = 0,5.

La perte contrastive entre les représentations latentes dans l'architecture U-Net permet au modèle d'affiner le modèle de diffusion pour différents sujets.

En plus de personnaliser la perte, les chercheurs ont également attribué les concepts de progression et de régression de l'âge du visage au modèle de diffusion latente à l'aide d'un ensemble de régularisation, où l'ensemble de régularisation comprend toutes les images représentatives d'une catégorie, dans ce cas pour une personne.

Si l’objectif est de générer des images de visage réalistes, il suffit alors de sélectionner un ensemble régularisé d’images de visage sur Internet.

Cependant, la tâche de cet article est de laisser le modèle apprendre les concepts de vieillissement et de rajeunissement, et de les appliquer à différents individus. Les chercheurs ont donc choisi d'utiliser des images de visages de différents groupes d'âge, puis de les combiner avec un mot. légende ) à associer.

Les descriptions d'images correspondent à six tranches d'âge : enfants, adolescents, jeunes adultes, d'âge moyen, personnes âgées et personnes âgées.

Les descriptions d'âge fonctionnent mieux que les indices numériques (20, 40 ans) et le texte peut être utilisé pour inciter des modèles de diffusion à inférer ((photo d'un ⟨ jeton 〉 ⟨ étiquette de classe 〉 comme ⟨ groupe d'âge 〉)

Résultats expérimentaux

Montage expérimental

Les chercheurs ont mené des expériences en utilisant DreamBooth implémenté dans Stable Diffusion v1.4, en utilisant l'encodeur de texte CLIP (entraîné sur laion-aesthetics v2 5+) et la quantification vectorielle VAE pour compléter les changements d'âge. L'encodeur de texte est resté figé pendant l'entraînement du modèle de diffusion. État.

Les chercheurs ont utilisé 2 258 images de visages de 100 sujets dans l’ensemble de données CelebA et 659 images de 100 sujets dans l’ensemble de données AgeDB pour former l’ensemble de formation.

ab922a7061db164aa3446b937717243c.png

À l'exception de l'attribut binaire "Jeune", l'ensemble de données CelebA ne contient pas d'informations sur l'âge du sujet ; l'ensemble de données AgeDB contient des valeurs d'âge précises. Les chercheurs ont sélectionné le groupe d'âge avec le plus grand nombre d'images et l'ont utilisé comme ensemble d'entraînement, et le reste des images ont été utilisées pour l’ensemble de test (2 369 images au total).

Les chercheurs ont utilisé des paires de données (image, description) comme ensemble de régularisation, où chaque image de visage est associée à une légende indiquant son âge correspondant, en particulier les enfants de moins de 15 ans, les adolescents de 15 à 30 ans, les jeunes adultes de 30 à 40 ans. les personnes âgées, les personnes d'âge moyen de 40 à 50 ans, les personnes d'âge moyen de 50 à 65 ans et les personnes âgées de plus de 65 ans utilisent quatre jetons rares comme marqueurs : wzx, sks, ams, ukj

comparer les résultats

Les chercheurs ont utilisé IPCGAN, AttGAN et Talk-toEdit comme modèles de base pour l'évaluation et la comparaison.

Depuis qu'IPCGAN a été formé sur l'ensemble de données CACD, les chercheurs ont affiné 62 sujets de l'ensemble de données CACD et ont pu observer que FNMR=2 %, alors que la méthode proposée dans l'article FNMR (False NonMatch Rate)=11 %

f2ad66ddd190090accc0ffef8801a4fd.png

On constate qu'IPCGAN ne peut pas effectuer d'opérations de vieillissement ou de rajeunissement par défaut, ce qui entraîne une valeur FNMR très faible.

Les chercheurs ont utilisé le prédicteur d'âge DeepFace pour la prédiction automatique de l'âge. On peut observer que par rapport à l'image originale et à l'image générée par IPCGAN, l'image synthétisée par la méthode décrite dans l'article rendra la prédiction de l'âge plus dispersée, indiquant que l'âge l’opération d’édition a réussi.

65f90503bcbe10e4e5da769fcf99b465.png

Lors de l'application d'AttGAN et de l'édition de dialogues sur l'ensemble de données CelebA, en termes de comparaison d'images et de performances de correspondance biométrique, on peut observer qu'à FMR=0,01, la méthode de l'article est 19 % meilleure qu'AttGAN sur les images de la catégorie "jeune". , et dans les images de la catégorie " 7 % mieux qu'AttGAN sur les anciens"

52dc34569e9ef7cc43e16e4ef5784aed.png

recherche d'utilisateurs

Les chercheurs ont collecté 26 retours d'utilisateurs et le taux de précision de la reconnaissance biométrique de premier rang (la moyenne du nombre total de réponses) a atteint 78,8 %. Les taux de précision de la reconnaissance correcte pour chaque tranche d'âge étaient : enfants = 99,6 %, adolescents = 72,7 % , adolescents = 68,1 %, personnes d'âge moyen = 70,7 %, personnes âgées = 93,8 %

42bd7e9019a68677edf9df5e5abaf7f3.png

Autrement dit, les utilisateurs ont réussi à différencier les images générées par différents groupes d’âge avec un degré de précision raisonnablement élevé.

Les références:

https://arxiv.org/abs/2307.08585

Suivez le compte public [Machine Learning and AI Generated Creation], des choses plus passionnantes vous attendent à lire

Suppression, 60 000 mots ! 130 articles dans 30 directions ! CVPR 2023 L'article AIGC le plus complet ! Lisez-le d'une seule traite

Une explication approfondie de la diffusion stable : interprétation de l'article sur le modèle de diffusion potentiel derrière la technologie de peinture par IA

Une introduction simple à ControlNet, un algorithme de génération de peinture AIGC contrôlable ! 

Le GAN classique doit lire : StyleGAN

481919e5b0fee161488f6e4b651fc2fb.png Cliquez sur moi pour voir la série d'albums de GAN~ !

Une tasse de thé au lait et devenez le pionnier de la vision AIGC+CV !

La collection la plus récente et la plus complète de 100 articles ! Générer des modèles de diffusionModèles de diffusion

ECCV2022 | Résumé de quelques articles sur le Generative Adversarial Network GAN

CVPR 2022 | Plus de 25 directions, les 50 derniers articles du GAN

 ICCV 2021 | Résumé de 35 articles thématiques du GAN

Plus de 110 articles ! Examen du document GAN le plus complet du CVPR 2021

Plus de 100 articles ! Examen du document GAN le plus complet du CVPR 2020

Déballage d'un nouveau GAN : représentation de découplage MixNMatch

StarGAN version 2 : génération d'images de diversité multi-domaines

Téléchargement ci-joint | "Apprentissage automatique explicable" version chinoise

Téléchargement ci-joint | "Pratique de l'algorithme d'apprentissage profond TensorFlow 2.0"

Téléchargement ci-joint | Partage de "Méthodes mathématiques en vision par ordinateur"

"Un examen des méthodes de détection des défauts de surface basées sur le Deep Learning"

"Un examen de la classification d'images à échantillon zéro : dix ans de progrès"

"Un examen de l'apprentissage sur quelques échantillons basé sur des réseaux de neurones profonds"

Le « Livre des Rites · Xue Ji » dit : Si vous étudiez seul sans amis, vous serez seul et ignorant.

Cliquez sur une tasse de thé au lait et devenez le pionnier de la vision AIGC+CV ! , rejoignez  la planète de la création générée par l'IA et  des connaissances en vision par ordinateur !     

Je suppose que tu aimes

Origine blog.csdn.net/lgzlgz3102/article/details/132769749
conseillé
Classement