mécanisme d'Attention + = profondeur de seuillage doux réseau de retrait résiduel

Comme son nom l' indique, la profondeur du retrait résiduel par le réseau « réseau résiduel » et « contraction » composée de deux parties , un « réseau résiduel » algorithme amélioré.

Parmi eux, le réseau résiduel en 2016 a remporté le gagnant du concours de reconnaissance d'image IMAGEnet, est devenu la base d'une profondeur de réseau des zones d' apprentissage, « contraction » est « seuillage » , est une étape clé dans de nombreuses méthodes de réduction du bruit du signal.

La profondeur du réseau de retrait résiduel est également un algorithme d'apprentissage en profondeur des « mécanismes attentionnels ». Quel seuil requis seuillage doux, est disposé essentiellement dans les mécanismes attentionnels.

Dans cet article, nous avons d'abord l'infrastructure liée au réseau résiduel, seuillage et les mécanismes d'attention sont brièvement examinés, la profondeur de la motivation des réseaux de retrait résiduel, des algorithmes et des applications pour élargir l'interprétation.

1. infrastructures connexes

1.1 Réseau résiduel

réseau résiduel (aussi connu comme la profondeur du réseau résiduel, la profondeur de l'apprentissage résiduel anglais ResNet) appartient à un réseau de neurones de convolution. Par rapport au réseau de neurones de convolution normale, réseau résiduel en utilisant une connexion ayant une identité inter-couche, afin de réduire la difficulté de convolution de formation réseau de neurones. Un module de base résiduel réseau représenté sur la figure 1.

seuillage 1.2

l' étape de seuillage doux est le noyau d'un certain nombre de procédé de réduction de bruit de signal . Ceci est utile pour une valeur absolue inférieureune certaine caractéristique de seuil est réglé à zéro, les autres caractéristiques peuvent également être ajustés vers zéro,savoir contracté. Ici, le paramètre de seuil est nécessaire de valeurs prédéfinies qui ont un impact direct sur la taille du résultat deréduction du bruit. La relation entre la valeur de seuil de l'entrée et la sortie souple comme représenté surFig.

Comme on peut le voir sur la figure 2, seuillage doux est une transformation non linéaire, et RELU a des propriétés très semblables à la fonction d'activation: gradient est égal à 0 ou 1. Ainsi, la fonction de seuillage peut être activé en tant que réseau de neurones. En fait, une partie du réseau de neurones a pour fonction de seuil programmable a été utilisée comme fonction d'activation.

1.3 mécanismes attentionnels

mécanisme de l'attention est de se concentrer sur le mécanisme clé pour les informations locales, il peut être divisé en deux étapes: tout d'abord, par l'analyse globale pour trouver des informations utiles au niveau local, deuxièmement, améliorer les informations utiles et de suppression des données redondantes.

Réseau squeeze-et surexcitation est la profondeur de l'apprentissage dans un des mécanismes attentionnels très classique. Il peut être un petit sous-réseau, d'apprendre automatiquement pour donner un ensemble de poids, dans lequel, pour chaque canal est pondéré FIG. L'implication est que certaines fonctionnalités du canal est plus important, tandis que d'autres disposent canal d'information est redondante, donc, nous pouvons améliorer la fonction utile du canal de cette façon, d'affaiblir le canal fonctions redondantes. Un module de base et retrait obligatoire surexcitation réseau comme indiqué ci-dessous.

Il convient de noter, de cette façon, chaque échantillon peut avoir son propre ensemble unique de poids , selon les caractéristiques de l'échantillon lui - même, une trajectoire d'ajustement pondérée des caractéristiques uniques. Par exemple, l'échantillon A première caractéristique de canal est important, dans lequel le second canal ne soit pas critique, dans lequel le premier passage est sans importance échantillon B, un second canal est une caractéristique importante, de cette façon, l'échantillon A peut avoir son propre ensemble de poids, dans lequel le premier canal pour renforcer et affaiblir une seconde caractéristique de canal; de même, l' échantillon B peut avoir son propre ensemble de poids, dans lequel le premier canal d'affaiblir, de renforcer la deuxième caractéristique de canal.

2. La profondeur de la théorie du réseau de retrait résiduel

2.1 motivation

Tout d' abord, les données dans le monde réel, plus ou moins contiennent des informations redondantes . Ensuitenous pouvons essayer de seuillage intégré dans le réseau résiduel afin d'éliminerinformations redondantes.

En second lieu , chaque échantillon est souvent le contenu de l' information redondante est différente . Ensuitenous pouvons utiliser le mécanisme deattention, selon la situation des échantillons individuels, chaque échantillon de définir différents adaptativement seuils.

2.2 algorithme

Réseau et le réseau squeeze-et-excitation résiduelle De même, la profondeur du retrait résiduel par la pile de réseau est formé par un certain nombre de modules de base. Chaque module de base a un sous-réseau, pour l' apprentissage automatique d' un ensemble de seuils d'obtenir, pour la valeur de seuil non strict de la caractéristique de la Fig. Il est intéressant de noter, de cette façon, chaque échantillon a son propre ensemble unique de seuils . Une profondeur de module de base réseau de retrait résiduel , comme indiqué ci - dessous.

Profondeur configuration globale d'un retrait résiduel du réseau tel que représenté ci-dessous, est une couche d'entrée, un certain nombre de modules de base et la dernière couche ou analogue reliée à la sortie de la composition totale.

2.3 application

Dans le document, la profondeur du diagnostic de défaut du réseau retrait résiduel est utilisé dans le signal de vibration mécanique de rotation. En principe, cependant, la profondeur du retrait résiduel est le cas pour le jeu de données réseau contenant des informations de redondance, les informations de redondance est partout . Par exemple, lorsque la reconnaissance d'image, l'image contient toujours une région associée aux étiquettes, lorsque la reconnaissance vocale, contiennent souvent des audio diverses formes de bruit. Par conséquent, la profondeur du réseau de retrait résiduel, ou qu'un tel « mécanisme d'attention » + « seuil soft » de l'idée, a une valeur de recherche plus vaste et la perspective de l' application.

Littérature sources

M. Zhao, S, Zhong, X. Fu, et al. Profondeur des réseaux de retrait résiduel pour le diagnostic de défaut. IEEE Transactions on Informatique Industrielle, 2019, DOI: 10,1109 / TII.2019.2943898

https://ieeexplore.ieee.org/document/8850096/