Résumé des questions d'entrevue sur l'apprentissage profond de la vision par ordinateur

1. Fonction de perte commune?

1. Fonction de perte d'entropie croisée: utilisée avec la régression softmax, la sortie est une distribution de probabilité.

2. Fonction de perte exponentielle

3. Fonction de perte carrée (méthode des moindres carrés)

2. Expliquez clairement le taux de précision et le taux de rappel:

La formule de précision est qu'il calcule la proportion de tous les "éléments correctement récupérés (TP)" par rapport à tous "réellement récupérés (TP + FP)".

La formule du taux de rappel (rappel) est qu'il calcule la proportion de tous les «éléments correctement récupérés (TP)» par rapport à tous les «éléments qui doivent être récupérés (TP + FN)».

3.MobileNet

mobilenet a été proposé par Google.
Avantages: petite taille, petit calcul, adapté aux réseaux de neurones convolutifs d'appareils mobiles.
Peut réaliser la classification / détection de cible / segmentation sémantique;

Miniaturisation:

  1. Le noyau de convolution est décomposé, et les noyaux de convolution 1xN et Nx1 sont utilisés pour remplacer le noyau de convolution NxN.
  2. Utilisation de la structure de goulot d'étranglement, représentée par SqueezeNet
  3. Enregistrer sous forme de nombres à virgule flottante de faible précision, tels que la compression profonde
  4. Élagage du noyau de convolution redondant et codage Huffman.

mobilenet v1:

En référence au VGGNet traditionnel et à d'autres architectures de chaîne, la profondeur du réseau est améliorée en empilant des couches convolutives, améliorant ainsi la précision de la reconnaissance. Inconvénients: phénomène de dispersion de gradient.
(Dispersion du gradient: règle de la chaîne du dérivé, plusieurs couches successives de gradient inférieur à 1 rendront le gradient de plus en plus petit, conduisant éventuellement à un gradient de couche de 0)

Quel problème souhaitez-vous résoudre?
Dans des scénarios réels, tels que les appareils mobiles, les appareils embarqués, la conduite autonome, etc., la puissance de calcul sera limitée, l'objectif est donc de construire un modèle petit et rapide.

Quelle méthode a été utilisée pour résoudre le problème (mise en œuvre):

  1. Dans l'architecture MobileNet, la convolution séparable profonde est utilisée au lieu de la convolution traditionnelle.
  2. Dans le réseau MobileNet, deux hyperparamètres de retrait sont introduits: le facteur de largeur et le multiplicateur de résolution.

Quels sont les problèmes:

  1. La structure de MobileNet v1 est trop simple, elle est similaire à la structure droite de VGG, ce qui fait que le coût de ce réseau n'est en fait pas élevé. Si une série de structures ultérieures ResNet, DenseNet et autres (réutilisation des fonctionnalités d'image et ajout de raccourcis) sont introduites, les performances du réseau peuvent être considérablement améliorées.
  2. Il y a des problèmes potentiels avec la convolution profonde, et certains poids du noyau sont nuls après l'entraînement.

Une idée de convolution séparable profonde?
En substance, la convolution standard est divisée en deux étapes: la convolution en profondeur et la convolution ponctuelle, l'entrée et la sortie sont les mêmes.
Convolution en profondeur: utilisez un noyau de convolution distinct pour chaque canal d'entrée.
Convolution ponctuelle: convolution 1 × 1, utilisée pour combiner la sortie de la convolution en profondeur.

La plupart des calculs (environ 95%) et des paramètres (75%) de MoblieNet sont dans la convolution 1 × 1, et la plupart des paramètres restants (environ 24%) sont dans la couche entièrement connectée. Étant donné que le modèle est petit, les méthodes de régularisation et l'amélioration des données peuvent être réduites, car le petit modèle est relativement difficile à surajuster.

À propos de mobilenet v2:

mobileNet v2 introduit principalement deux changements: goulot d'étranglement linéaire et blocs résiduels inversés.
À propos des blocs résiduels inversés: la
structure de MobileNet v2 est basée sur un résidu inversé. Son essence est une conception de réseau résiduel. Le bloc résiduel traditionnel a un grand nombre de canaux à la fois Il y en a peu au milieu
et le résidu inversé conçu dans cet article est que le nombre de canaux aux deux extrémités du bloc est petit et le nombre de canaux dans le bloc est grand. De plus, la convolution séparable en profondeur est conservée

À propos des goulots d'étranglement linéaires: La
région d'intérêt reste non nulle après ReLU, qui est approximativement considérée comme une transformation linéaire;
ReLU peut maintenir l'intégrité des informations d'entrée, mais elle est limitée au sous-espace de faible dimension de l'espace d'entrée.
Pour le traitement spatial à basse latitude, ReLU est approximé comme une conversion linéaire.

Comparaison entre v1 et v2:
Insérez la description de l'image ici
Similitudes:

  1. Les deux utilisent la convolution en profondeur (DW) et la convolution en pointe (PW) pour extraire les entités. Ensemble, ces deux opérations sont appelées Convolution séparable en profondeur, qui était largement utilisée dans Xception auparavant. L'avantage de ceci est que théoriquement, la complexité temporelle et la complexité spatiale de la couche convolutive peuvent être doublées.

Différences:
2. v2 ajoute une nouvelle convolution PW avant la convolution DW. La raison en est que la convolution DW n'a pas la capacité de modifier le nombre de canaux en raison de ses propres caractéristiques de calcul. Autant de canaux que la couche supérieure lui donne, combien de canaux il doit produire. Par conséquent, si le nombre de canaux donné par la couche supérieure elle-même est petit, DW ne peut extraire des entités que dans un espace de faible dimension, de sorte que l'effet n'est pas assez bon.
Maintenant, la v2, afin d'améliorer ce problème, correspond à un PW avant chaque DW, qui est spécialement utilisé pour la mise à niveau de dimension, et définit le coefficient de mise à niveau de dimension comme 6, de sorte que quel que soit le nombre de canaux d'entrée, après la première mise à niveau de dimension , DW travaille dur dans des dimensions relativement plus élevées.
V2 supprime la fonction d'activation du second pw, que l'auteur appelle Linear Bottleneck. La raison en est que l'auteur pense que la fonction d'activation peut effectivement augmenter la non-linéarité dans l'espace de haute dimension, alors qu'elle détruira les valeurs propres dans l'espace de faible dimension, ce qui n'est pas aussi bon que l'effet linéaire. La deuxième fonction principale de PW est la réduction de dimensionnalité, donc selon la théorie ci-dessus, ReLU6 ne doit pas être utilisé après la réduction de dimensionnalité.

Résumé de mobileNet v2: Le
plus difficile à comprendre est celui des goulots d'étranglement linéaires. Il est très simple à mettre en œuvre, c'est-à-dire qu'il n'y a pas de ReLU6 après le deuxième PW dans MobileNetv2. Pour les espaces à basse latitude, le mappage linéaire conservera les caractéristiques, tandis que le mappage non linéaire détruire la fonction.

mobileNet v3

Modules de construction de réseau efficaces:
v3 est un modèle obtenu par recherche d'architecture neuronale. Les modules internes utilisés sont:
1. Le modèle v1 introduit une convolution séparable profonde;
2. v2 introduit une structure résiduelle inversée avec un goulot d'étranglement linéaire;
3. Modèle d'attention léger basé sur la structure de compression et d'excitation;

Recherche complémentaire:
dans la recherche de la structure du réseau, l'auteur combine deux technologies: NAS à ressources limitées et NetAdapt. La première est utilisée pour rechercher divers modules du réseau sous la prémisse de calculs et de paramètres limités, on l'appelle donc au niveau du module chercher.

4.yolo

Je suppose que tu aimes

Origine blog.csdn.net/sazass/article/details/112146957
conseillé
Classement