Autres observations sur le réglage efficace des paramètres dans les modèles de diffusion

Résumé:

Les modèles de diffusion à grande échelle comme la diffusion stable [31] sont très puissants et peuvent trouver une variété d'applications dans le monde réel, tandis que la personnalisation de ces modèles grâce à un réglage fin peut réduire l'efficacité de la mémoire et du temps. Motivés par les progrès récents dans le traitement du langage naturel, nous étudions le réglage efficace des paramètres dans de grands modèles de diffusion en insérant de petits adaptateurs de modules apprenables (appelés adaptateurs). Plus précisément, nous décomposons l'espace de conception de l'adaptateur en facteurs orthogonaux (emplacement d'entrée, emplacement de sortie et forme fonctionnelle) et effectuons une analyse de variance (ANOVA), qui est une analyse de variables discrètes (options de conception) et de variables continues (évaluation statistique classique). méthode de corrélation entre indicateurs). Notre analyse montre que la position d'entrée de l'adaptateur est un facteur critique affectant les performances des tâches en aval. Nous avons ensuite soigneusement étudié la sélection des emplacements d'entrée et avons constaté que le fait de placer les emplacements d'entrée après le bloc d'attention croisée entraînait les meilleures performances, ce qui a été vérifié par une analyse visuelle supplémentaire. Enfin, nous proposons une méthode de réglage efficace des paramètres dans les modèles de diffusion qui surpasse, voire surpasse, les lignes de base entièrement affinées (telles que DreamBooth) sur diverses tâches personnalisées avec seulement 0,75 % de paramètres supplémentaires. Notre code peut  être trouvé sur https://github.com/Xiang-cd/unet-finetune

introduire:

Les modèles de diffusion sont récemment devenus populaires en raison de leur capacité à générer des images diversifiées et de haute qualité. Le modèle de diffusion présente d'excellentes performances dans les tâches de génération conditionnelle en interagissant avec les informations conditionnelles au cours du processus de génération itérative, ce qui inspire son application dans des tâches en aval telles que la génération de texte en image, la traduction d'image en image et la restauration d'image.

Armés des connaissances acquises à partir de données massives, les modèles de diffusion à grande échelle démontrent de solides capacités préalables dans les tâches en aval. Parmi eux, DreamBooth ajuste tous les paramètres dans un modèle de diffusion à grande échelle pour générer les objets spécifiques souhaités par l'utilisateur. Cependant, affiner l’ensemble du modèle s’avère inefficace en termes de coûts de calcul, de mémoire et de stockage. Une autre méthode est la méthode d'apprentissage par transfert efficace des paramètres (cet article), issue du domaine du traitement du langage naturel (NLP). Ces méthodes insèrent de petits modules entraînables (appelés adaptateurs) dans le modèle et gèlent le modèle d'origine. Cependant, l’apprentissage par transfert efficace en termes de paramètres n’a pas été étudié en profondeur dans le domaine des modèles de diffusion. Par rapport aux modèles de langage basés sur des transformateurs en PNL, l'architecture U-Net, largement utilisée dans les modèles de diffusion, contient plus de composants, tels que des blocs résiduels avec des opérateurs d'échantillonnage vers le bas/vers le haut, l'auto-attention et l'attention croisée . Cela permet un espace de conception plus grand pour un apprentissage par transfert efficace en termes de paramètres que les modèles de langage basés sur un transformateur.

Cet article fournit la première étude systématique de l'espace de conception pour un réglage efficace des paramètres dans les modèles de diffusion à grande échelle. Nous utilisons la diffusion stable comme cas spécifique car il s'agit actuellement du seul modèle de diffusion open source à grande échelle. En particulier, nous décomposons l'espace de conception de l'adaptateur en facteurs orthogonaux : positions d'entrée, positions de sortie et formes fonctionnelles. En analysant les différences entre les groupes dans ces facteurs à l'aide de l'ANOVA dans une étude expérimentale, nous avons constaté que l'emplacement des entrées est un facteur clé affectant la performance des tâches en aval . Nous avons ensuite soigneusement étudié la sélection des emplacements d'entrée et avons constaté que placer les emplacements d'entrée après le bloc d'attention croisée peut maximiser l'incitation du réseau à percevoir les changements dans les signaux d'entrée (voir Figure 11), ce qui entraîne les meilleures performances.

Sur la base de nos recherches, nos paramètres optimaux peuvent obtenir des résultats comparables à l'approche entièrement affinée (qui est de toute façon aussi bonne que Dreambooth)

2. Introduction connexe :

2.1 Modèle de diffusion :

2.2 Structures stables en diffusion :

image 3. arrière-plan. La figure dans le coin supérieur gauche montre l'architecture globale du modèle de diffusion basé sur unet. L'angle supérieur droit montre comment le modèle de diffusion supprime le bruit des données bruitées via une étape T - 1. La partie inférieure de la figure montre la structure du bloc résiduel et du bloc transformateur. Les adaptateurs (blocs rouges sur la figure) sont des modules avec moins de paramètres insérés dans le modèle pour un apprentissage par transfert efficace des paramètres. 

Actuellement, l’architecture de modèle de diffusion la plus populaire est l’architecture basée sur U-Net. Plus précisément, l'architecture basée sur u-net dans Stable Diffusion est illustrée à la figure 3 . U-Net se compose de blocs de base empilés, chacun contenant un bloc transformateur et un bloc résiduel. Dans le bloc transformateur, il y a trois sous-couches : la couche d'auto-attention, la couche d'attention croisée et le réseau de rétroaction entièrement connecté. La couche d'attention opère sur la requête Q∈Rn×dk, la paire clé-valeur K∈Rm×dk, V∈Rm×dv

 Où n est le nombre de requêtes, m est le nombre de paires clé-valeur, dk est la dimension de la clé et dv est la dimension de la valeur. Dans la couche d’auto-attention, x∈Rn×dx est la seule entrée. Dans la couche d'attention croisée du modèle de diffusion conditionnelle, il y a deux entrées x∈Rn×dx, c∈Rm×dc, où x est la sortie du bloc précédent et c représente les informations de condition. Un réseau feedforward entièrement connecté se compose de deux transformations linéaires avec des fonctions d'activation ReLU :

 Parmi eux, W1∈Rd×dm, W2∈Rdm×d sont des poids apprenables, b1∈Rdm, b2∈Rd sont des écarts apprenables. Le bloc résiduel se compose d'une série de couches convolutives et d'activations, où l'intégration temporelle est injectée dans le bloc résiduel via une opération additive.

2.3 Apprentissage par transfert efficace des paramètres :

L'apprentissage par transfert est une technique qui utilise les connaissances acquises lors d'une tâche pour améliorer les performances sur des tâches connexes. La méthode consistant à pré-entraîner les tâches en aval puis à effectuer un apprentissage par transfert est largement utilisée. Cependant, les méthodes traditionnelles d’apprentissage par transfert nécessitent un grand nombre de paramètres, qui sont coûteux en calcul et gourmands en mémoire.

L’apprentissage par transfert efficace par paramètres a été proposé pour la première fois dans le domaine du traitement du langage naturel. L'idée clé de l'apprentissage par transfert efficace des paramètres est de réduire le nombre de paramètres mis à jour. Ceci peut être réalisé en mettant à jour une partie du modèle ou en ajoutant de petits modules supplémentaires. Certaines méthodes d'apprentissage par transfert paramétriquement efficaces (par exemple Adapter [16], LoRA [17]) choisissent d'ajouter de petits modules supplémentaires appelés adaptateurs au modèle. En revanche, d'autres méthodes (réglage des préfixes [22], réglage des repères [21]) placent un vecteur apprenable avant l'activation ou l'entrée. Un grand nombre d’études ont prouvé que dans le domaine du traitement du langage naturel, cette méthode efficace de réglage fin des paramètres peut obtenir des résultats considérables avec moins de paramètres.

3. Espace de conception pour un apprentissage efficace des paramètres dans les modèles de diffusion

Malgré le succès de l'apprentissage par transfert efficace en termes de paramètres dans le traitement du langage naturel, cette technique n'est pas entièrement comprise dans les modèles de diffusion en raison de la présence de composants tels que les blocs résiduels et l'attention croisée. Avant d'analyser le réglage efficace des paramètres dans les modèles de diffusion, nous décomposons l'espace de conception de l'adaptateur en trois facteurs orthogonaux : position d'entrée, position de sortie et forme fonctionnelle. La diffusion stable [31] a été prise en compte dans ce travail car il s'agit actuellement du seul modèle de diffusion open source à grande échelle (son architecture basée sur U-Net est illustrée dans la figure 3).

Ci-dessous, nous détaillons les emplacements d'entrée, les emplacements de sortie et les formes fonctionnelles basées sur l'architecture de diffusion stable.

3.1 Position d'entrée et position de sortie :

L'emplacement d'entrée est la source de l'entrée de l'adaptateur et l'emplacement de sortie est l'emplacement de la sortie de l'adaptateur. Pour faciliter la compréhension, comme le montre la figure 4, les emplacements sont nommés en fonction des couches adjacentes. Par exemple, SAin représente la position correspondant à l'entrée de la couche d'auto-attention, Transout représente la sortie du bloc transformateur et CAc représente l'entrée conditionnelle de la couche d'attention croisée.

 Graphique 4. Activez la description du lieu. En règle générale, le nom principal de l'emplacement d'activation est un alias pour un bloc spécifique dans le modèle, et l'indice de l'emplacement d'activation explique la relation entre l'activation et le bloc.

Dans notre cadre, l'emplacement d'entrée peut être n'importe lequel des emplacements d'activation décrits dans la figure 4. Il existe donc 10 options de position de saisie différentes au total. Quant au résultat, puisque l’addition est commutative, certaines positions sont équivalentes. Par exemple, mettre la sortie dans SAout équivaut à mettre la sortie dans CAin. Par conséquent, les options d’emplacement de sortie sont réduites à 7 au total. Une autre contrainte est que l'emplacement de sortie doit être placé après l'emplacement d'entrée.

3.2Architecture du modèle d'adaptateur :

La forme fonctionnelle décrit comment l'adaptateur transforme l'entrée en sortie. Nous donnons respectivement les formes fonctionnelles de l'adaptateur dans le bloc transformateur et le bloc résiduel (voir Figure 5), où tous deux contiennent un opérateur de sous-échantillonnage, une fonction d'activation, un opérateur de suréchantillonnage et un facteur d'échelle. L'opérateur de sous-échantillonnage réduit la dimensionnalité de l'entrée et l'opérateur de suréchantillonnage augmente la dimensionnalité de l'entrée pour garantir que la sortie a la même dimensionnalité que l'entrée. La sortie est en outre multipliée par un facteur d'échelle s pour contrôler la force de son influence sur le réseau d'origine.

Parmi eux, l'adaptateur de bloc de transformateur utilise respectivement les matrices de bas rang Wdown et Wup comme opérateurs de sous-échantillonnage et de suréchantillonnage, et l'adaptateur de bloc résiduel utilise respectivement les couches de convolution 3 × 3 Convdown et Convup comme opérateurs de sous-échantillonnage et de suréchantillonnage. Notez que ces couches convolutives ne modifient que le nombre de canaux, pas la taille spatiale. De plus, l'adaptateur de bloc résiduel utilise également l'opérateur de normalisation de groupe [38] pour traiter son entrée.

Parmi nos choix de conception, nous avons inclus différentes fonctions d'activation et facteurs d'échelle. Les fonctions d'activation incluent ReLU, Sigmoid, SiLU et Identifier comme choix de conception, et les facteurs d'échelle incluent 0,5, 1,0, 2,0, 4,0.

 Graphique 5. Architecture modèle des adaptateurs dans les blocs de transformateur et les blocs restants.

4. Utilisez l'analyse des écarts pour découvrir les facteurs clés

Comme mentionné précédemment, trouver la solution optimale dans un espace de recherche discret aussi vaste est un défi. Pour découvrir quel facteur dans l'espace de conception a le plus grand impact sur les performances, nous quantifions la corrélation entre les performances du modèle et les facteurs à l'aide de la méthode d'analyse de variance unidirectionnelle (ANOVA), largement utilisée dans de nombreux domaines, notamment la psychologie, l'éducation, sciences de la biologie et économie.

L'idée principale de l'ANOVA est de diviser la variation totale des données en deux parties : la variation intra-groupe (MSE) et la variation inter-groupe (MSB). MSB mesure la différence de moyenne entre les groupes, tandis que la variation au sein du groupe mesure la différence entre les observations individuelles et la moyenne entre leurs groupes respectifs. Le test statistique utilisé dans l'ANOVA est basé sur la distribution f, qui compare le rapport de variation entre les groupes à la variation au sein des groupes (statistique f). Si la statistique f est suffisamment grande, cela indique que les moyennes entre les groupes sont significativement différentes, indiquant une forte corrélation.


Figure 6. Relation entre les performances de l'adaptateur (c'est-à-dire la similarité CLIP↑) et les positions d'entrée et de sortie dans la tâche DreamBooth .

 Graphique 7. La relation entre les performances (c'est-à-dire FID↓) et les positions d'entrée et de sortie de l'adaptateur dans la tâche de réglage fin (mon objectif).

5. Expérimentez

 Nous présentons d’abord notre configuration expérimentale dans la section 5.1. Nous analysons ensuite quel facteur dans l’espace de conception est le plus critique à la section 5.2. Après avoir découvert l'importance de l'emplacement de l'entrée, nous menons une étude d'ablation détaillée à ce sujet dans la section 5.3. Enfin, nous présentons une comparaison complète entre notre configuration optimale et DreamBooth (c'est-à-dire le réglage fin de tous les paramètres) dans la section 5.4.

5.1 Paramètres

tâches et ensembles de données. Dans le modèle de diffusion, nous considérons deux tâches d'apprentissage par transfert.

Mission DreamBooth. La première tâche consiste à personnaliser un modèle de diffusion pour moins de 10 images d'entrée, comme proposé dans DreamBooth [32]. Pour plus de simplicité, appelons-la la tâche DreamBooth. L'ensemble de données de formation de DreamBooth se compose de deux ensembles de données : des données personnalisées et des données régularisées. (c'est-à-dire utiliser la méthode DreamBooth pour un réglage fin ?) Les données de personnalisation sont une image d'un objet spécifique (par exemple, un chien blanc) fournie par l'utilisateur. Les données régularisées sont des images d'objets généraux similaires à des données personnalisées (par exemple, des chiens de différentes couleurs). La taille des données personnalisées est inférieure à 10 et le modèle peut collecter ou générer des données régularisées. DreamBooth utilise des balises rares [V] et des mots de classe Cclass pour faire la distinction entre les données régularisées et les données personnalisées. En particulier, avec des données régularisées, le message sera « Photo de classe C » ; avec des données personnalisées, le message sera « Photo de classe [V] ». Parmi eux, Cclass est un mot qui décrit la catégorie générale de données (comme chien). Nous collectons des données personnalisées depuis Internet et la photographie en direct, mais aussi depuis DreamBooth (33 au total). Nous utilisons la diffusion stable elle-même pour générer les données régularisées correspondantes, conditionnellement à l'invite "une photo de classe".

Affiner les tâches. Une autre tâche consiste à affiner un petit ensemble de paires texte-image. Par souci de simplicité, nous appelons cela la tâche de réglage fin. Suite à [39], nous envisageons un réglage fin sur l'ensemble de données de fleurs [27] avec 8189 images et utilisons les mêmes paramètres. Nous utilisons l'invite "une photo de Fname" pour ajouter un titre à chaque image, où Fname est le nom de la fleur de la classe d'images.

Nous utilisons l'optimiseur AdamW [23]. Pour la tâche DreamBooth, nous fixons le taux d'apprentissage à 1e-4, ce qui permet à DreamBooth et à notre méthode de converger en environ 1 000 étapes. La taille de l'adaptateur est fixée à 1,5 M (0,17 % du modèle UNet) et entraînée en 2,5 000 étapes. Pour la tâche de réglage fin sur un petit ensemble de paires texte-image, nous avons fixé le taux d'apprentissage à 1e-5, fixé la taille de l'adaptateur à 6,4 M (0,72 % du modèle UNet) et entraîné pour 60 000 étapes.

Afin d'améliorer l'efficacité de l'échantillonnage, nous avons choisi DPM-Solver [24] comme algorithme d'échantillonnage, la taille du pas d'échantillonnage est de 25 étapes et l'échelle du guide libre du classificateur (cfg) [15] est de 7,0. Dans certains cas, nous utilisons une échelle cfg de 5,0 pour une meilleure qualité d'image. 

Pour la tâche DreamBooth, nous utilisons les distances des images dans l'espace CLIP proposé dans [10] pour évaluer l'authenticité. Plus précisément, pour chaque cible de personnalisation, nous générons 32 images à l'aide de l'invite « Une photo de [V] Cclass ». La métrique est la similarité moyenne par paire de cosinus CLIP-espace (similarité CLIP) entre les images générées et les images de l'ensemble d'entraînement personnalisé. 

Pour la tâche de réglage fin sur un petit ensemble de paires texte-image, nous utilisons la notation FID [13] pour évaluer la similarité entre l'entraînement et les images générées. Nous échantillonnons au hasard 5 000 astuces de l'ensemble de formation, utilisons ces astuces pour générer des images, puis comparons les images générées avec les images de formation pour calculer le FID.

5.2 Analyse de variance (ANOVA) dans l'espace de conception

Rappelons que nous avons décomposé l'espace de conception en facteurs tels que l'emplacement d'entrée, l'emplacement de sortie et la forme fonctionnelle. Nous effectuons une approche ANOVA sur ces dimensions de conception (voir la section 4 pour plus de détails). Nous considérons l'efficacité de la tâche DreamBooth car elle nécessite moins d'étapes de formation. Comme le montre la figure 8, lorsqu'elle est regroupée par position d'entrée, la statistique f est plus grande, ce qui indique que la position d'entrée est un facteur clé affectant les performances du modèle. Lorsqu’elles sont regroupées par emplacement de sortie, la corrélation est plus faible. Lorsqu'elle est regroupée par forme fonctionnelle (deux fonctions d'activation et un facteur d'échelle), sa statistique f est d'environ 1, ce qui indique que la variabilité entre les groupes est similaire à la variabilité au sein des groupes, indiquant qu'il n'y a pas de différence significative entre les moyennes des groupes. Nous visualisons en outre les performances sous différentes positions d'entrée et positions de sortie. La figure 6 est le résultat de la tâche DreamBooth. La figure 7 montre les résultats FID de la tâche de réglage fin.

Figure 8. Effectuez des statistiques f sur l'ANOVA en regroupant les emplacements d'entrée, les emplacements de sortie, les fonctions d'activation et les facteurs d'échelle. La statistique f est plus grande lorsqu'elle est regroupée par position d'entrée, indiquant une relation significative avec la position d'entrée.

Comme mentionné ci-dessus, nous concluons que la position d'entrée de l'adaptateur est un facteur clé affectant les performances d'un apprentissage par transfert efficace des paramètres.

5.3 Expérience d'ablation de la position d'entrée

Comme le montrent les figures 6 et 7, nous avons constaté que les adaptateurs avec des positions d'entrée CAc ou CAout offrent de bonnes performances sur les deux tâches. Dans la figure 9, nous présentons les échantillons générés dans le modèle de diffusion personnalisé pour différentes positions d'entrée de l'adaptateur. Les adaptateurs avec des entrées sur CAc ou CAout sont capables de générer des images personnalisées comparables au réglage fin de tous les paramètres, alors que les adaptateurs avec des entrées ailleurs ne le sont pas.

Graphique 9. Des échantillons de modèles de diffusion personnalisés pour différentes positions d'entrée d'adaptateur ont été générés. Tous les échantillons sont conditionnés sur "une photo de classe [V]". Il convient de noter que les méthodes réussies généreront des images correctes, tandis que les méthodes échouées sont susceptibles de générer des images similaires aux données régularisées. 

Nous calculons en outre la différence entre les prédictions de bruit en fonction des indices « une photo de [V] Cclass » et « une photo de Cclass ». Le pipeline est illustré à la figure 10. Dans ce pipeline, nous ajoutons d'abord du bruit à une image à partir des données régularisées, utilisons U-Net pour prédire le bruit lorsque nous recevons ces deux signaux, et divisons la différence entre les deux bruits prédits. . Comme le montre la figure 11, il existe une différence significative entre les adaptateurs avec des positions d'entrée CAc ou CAout et les prédictions de bruit.

Graphique 10. Visualisation des différences de prédiction du bruit pour les pipelines expérimentaux. 

Graphique 11. Différences de prédiction du bruit pour différents paramètres. La méthode « atonale » utilise le modèle de diffusion stable original sans aucun réglage fin. Toutes les méthodes d'adaptateur sont documentées au format entrée-sortie. Nous avons constaté que les adaptateurs avec les positions d'entrée CAout et CAc répondaient mieux aux modifications demandées. 

5.4 par rapport à DreamBooth

Nous montrons les résultats pour chaque cas dans la tâche DreamBooth dans la figure 12, ce qui montre que notre méthode est meilleure dans la plupart des cas.

Nous comparons également nos meilleurs paramètres avec des méthodes entièrement affinées pour la tâche de réglage fin de l'ensemble de données de fleurs. Le FID de cette méthode est de 24,49, ce qui est meilleur que le 28,15 de la méthode entièrement optimisée.

 6.Travail connexe

personnaliser. Les modèles de diffusion texte-image à grande échelle formés sur des données Web peuvent générer des images diversifiées et à haute résolution avec un contenu d'image contrôlé par le texte saisi, mais n'ont souvent pas la capacité de personnaliser la génération pour des objets spécifiques souhaités par l'utilisateur.

 Des travaux récents, tels que Text Inversion [10] et DreamBooth [32], visent à résoudre ce problème en affinant les modèles de diffusion sur un petit ensemble d'images d'objets. L'inversion de texte n'ajuste que l'intégration d'un mot. Pour obtenir des performances plus élevées, DreamBooth ajuste tous les paramètres avec une perte de régularisation pour éviter le surajustement.

Apprentissage par transfert efficace en termes de paramètres. L'apprentissage par transfert efficace des paramètres provient du domaine du NLP, comme les adaptateurs [16], le réglage des préfixes [22], le réglage des indices [21] et LoRA [17]. Plus précisément, l'adaptateur [16] insère un petit perceptron multicouche (MLP) de bas rang avec une fonction d'activation non linéaire f(·) entre les blocs de transformateur ; le réglage du préfixe [22] ajoute un vecteur de préfixe réglable à chaque clé et valeur de couche d'attention ; Hint Tuning [21] simplifie le réglage des préfixes en ajoutant des intégrations de mots d'entrée réglables ; LoRA [17] injecte des matrices de bas rang réglables dans les matrices de requête et de projection de valeurs du bloc transformateur.

Bien que ces méthodes d'apprentissage par transfert efficaces en termes de paramètres varient dans leur forme et leur motivation, des travaux récents [12] proposent une approche unifiée de ces méthodes en spécifiant un ensemble de facteurs pour décrire l'espace de conception de l'apprentissage par transfert efficace en paramètres dans les transformateurs purs [37]. . Ces facteurs incluent la représentation modifiée, la forme d'insertion, la forme de fonction et les fonctions composées. En revanche, notre approche se concentre sur U-Net, qui comporte plus de composants qu’un pur transformateur et donc un espace de conception plus grand. De plus, nous utilisons une approche plus simple pour décomposer l’espace de conception en facteurs orthogonaux, à savoir les emplacements d’entrée, les emplacements de sortie et les formes fonctionnelles.

Graphique 12. Performances par rapport à DreamBooth. Notre méthode fonctionne mieux dans la plupart des cas. 

Apprentissage par transfert pour les modèles de diffusion. Il existe des méthodes pour identifier des objets spécifiques en passant le modèle de diffusion, ou en ajustant l'ensemble du modèle pour l'édition sémantique [19, 32]. Des travaux antérieurs [39] ont tenté de convertir un modèle de diffusion à grande échelle en un modèle image à image sur un petit ensemble de données, mais le nombre total de paramètres réglés représentait près de la moitié du modèle original. Soumettez le modèle de diffusion à de nouvelles conditions et introduisez plus de paramètres que notre modèle. Le travail parallèle [1] effectue également un apprentissage par transfert efficace des paramètres sur la diffusion stable. Leur méthode peut obtenir des résultats comparables à la méthode entièrement affinée sur la tâche DreamBooth [32], et leur méthode est basée sur l'ajout d'adaptateurs à plusieurs emplacements simultanément. Il en résulte un espace de conception plus complexe.

7. Conclusion 

Cet article mène une étude systématique sur l'espace de conception de l'apprentissage par transfert efficace en termes de paramètres en insérant des adaptateurs dans le modèle de diffusion. Décomposez l'espace de conception de l'adaptateur en trois facteurs orthogonaux : position d'entrée, position de sortie et forme fonctionnelle. . Grâce à l'analyse de variance (ANOVA), il a été constaté que la position d'entrée de l'adaptateur est un facteur clé affectant la performance des tâches en aval. Nous avons ensuite soigneusement étudié la sélection des emplacements d'entrée et avons constaté que le fait de placer les emplacements d'entrée après le bloc d'attention croisée entraînait les meilleures performances, ce qui a été vérifié par une analyse visuelle supplémentaire. Enfin, nous proposons une méthode de réglage efficace des paramètres dans les modèles de diffusion qui surpasse, voire surpasse, les lignes de base entièrement affinées (telles que DreamBooth) sur diverses tâches personnalisées avec seulement 0,75 % de paramètres supplémentaires. 

Acho que você gosta

Origin blog.csdn.net/zcyzcyjava/article/details/133099844
Recomendado
Clasificación