论文 翻译 (9) --- Un réseau neuronal de mémoire à long court terme bidirectionnel à convolution pour la reconnaissance des émotions du conducteur

Journal: IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTA TION SYSTEMS
article traite
du lien: https: //pan.baidu.com/s/1l-LybqzJ3YOfs5aM0oxkAQ
code d'extraction: zqdc
A Convolution Bidirectional Long Short-TermMemory Pilote de réseau neuronal pour la reconnaissance d'émotion
pour l'humeur du conducteur Réseau neuronal de mémoire à long et court terme bidirectionnel convolutif reconnu

Sommaire

La reconnaissance en temps réel des émotions du conducteur peut grandement améliorer la sécurité routière. Avec le développement rapide des technologies de communication, il est devenu possible de traiter de grandes quantités de données vidéo et de reconnaître les émotions du conducteur en temps réel. Afin de reconnaître efficacement les émotions du conducteur, un nouveau réseau neuronal de mémoire bidirectionnel à long et court terme à long et court terme à cadre d'apprentissage profond est proposé. Cette méthode prédit les émotions du conducteur en fonction des caractéristiques géométriques extraites des informations sur la peau du visage et de la fréquence cardiaque extraite des modifications des composants RVB. Les caractéristiques géométriques faciales obtenues en utilisant le réseau neuronal convolutif sont les variables intermédiaires de l'analyse de la fréquence cardiaque bidirectionnelle à mémoire longue et courte durée (double LSTM). Par la suite, la sortie du double LSTM est utilisée comme entrée du module CNN pour extraire les fonctions de fréquence cardiaque. CBLNN utilise le pool bilinéaire de décomposition multimodale (MFB) pour fusionner les informations extraites et les classer en cinq émotions courantes: le bonheur, la colère, la tristesse, la peur et la neutralité. Nous avons testé notre méthode de reconnaissance des émotions et prouvé qu'elle peut reconnaître rapidement et de manière stable les émotions en temps réel.
Index termes-reconnaissance des émotions, peau du visage, fréquence cardiaque, mémoire bidirectionnelle à long et court terme (double LSTM), CBLNN.

Introduction

La maturité de la technologie de communication mobile permet de télécharger en temps réel une grande quantité de données vers le centre de traitement distant pour effectuer des opérations lourdes et ajuster le réseau neuronal pour les utilisateurs. Avec le développement de la technologie des capteurs et des algorithmes d'apprentissage en profondeur, la reconnaissance des émotions en temps réel est devenue plus précise et applicable au monde réel. En particulier dans le domaine du transport, la reconnaissance en temps réel des émotions du conducteur est devenue une solution importante, qui peut potentiellement modifier le comportement du conducteur, réduisant ainsi la crise potentielle du conducteur pendant la conduite. [1], [2].

Afin de reconnaître les émotions en temps réel, de nombreuses fonctionnalités sont considérées pour améliorer la précision et la convivialité, telles que la voix, le texte, les expressions faciales, la direction du regard et les signaux bioélectriques. Par exemple, certaines fonctionnalités vocales et textuelles peuvent être utilisées pour identifier l'état émotionnel d'une personne [3], [4]. Cependant, ils sont plus difficiles à obtenir que les caractéristiques visuelles dans des situations de conduite réelles.

Habituellement, les émotions prévalent à travers les expressions faciales. Par exemple, un procédé de détection par caméra [5] a été proposé pour rendre l'interaction de l'observateur dans la situation de l'utilisateur (comme jouer à un jeu, conduire une voiture) plus naturelle et plus pratique. D'une manière générale, il existe deux méthodes de reconnaissance faciale, à savoir les méthodes basées sur la géométrie [6] et les méthodes basées sur l'apparence [5] and [7]. Les caractéristiques du visage sont facilement affectées par des facteurs externes, de sorte qu'un équipement de collecte de données très complexe est nécessaire. De plus, dans le domaine de la reconnaissance des émotions, les caractéristiques individuelles des cinq organes sensoriels diffèrent considérablement et la capacité de généralisation des cinq sens sensoriels n'est pas forte. Par conséquent, il ne suffit pas d'utiliser uniquement les traits du visage pour reconnaître avec précision les émotions.

Différents des caractéristiques visuelles et sonores, les signaux biométriques tels que l'électrocardiogramme, l'électromyographie, etc. Il a été largement utilisé dans la plupart des expériences de détection d'émotions. Par exemple, des expériences récentes ont utilisé les micro-ondes, l'imagerie thermique et d'autres méthodes pour détecter la fréquence cardiaque [8]. Cependant, ces méthodes nécessitent que le sujet porte un équipement spécial et soient en contact direct [9], [10], interférant ainsi avec les activités du sujet.

Dans ce travail, notre objectif est de fournir une nouvelle méthode capable de surmonter ces limitations.

Un nouveau cadre d'apprentissage en profondeur CBLNN basé sur la fréquence cardiaque et la géométrie du visage est proposé. Cette méthode utilise CNN pour effectuer une analyse géométrique du visage et utilise les caractéristiques du visage obtenues par CNN comme variable intermédiaire pour participer au processus d'analyse de la fréquence cardiaque double LSTM. Fusion des traits du visage et des fonctions de fréquence cardiaque pour obtenir des résultats de classification émotionnelle. Les principales contributions de cet article sont:

1) Une méthode de perception des émotions du conducteur basée sur la géométrie du visage et la fréquence cardiaque est proposée. Cette méthode introduit la fréquence cardiaque obtenue grâce aux modifications de la luminosité de la peau du visage pour compenser les informations manquantes dans les caractéristiques géométriques. Cette méthode conserve non seulement les avantages de la méthode traditionnelle de reconnaissance des émotions de l'état de la structure du visage à une seule image, mais augmente également la prise en compte des changements d'heure.
2) Cette méthode combine efficacement CNN et double LSTM. L'analyse des données spatiales participe à l'analyse des données temporelles, combinant ainsi plus efficacement les caractéristiques spatiales et temporelles.
Le reste de l'article est organisé comme suit. La deuxième section présente les travaux connexes. La section III donne un bref aperçu de cette méthode proposée. La quatrième section présente le modèle CBLNN en détail. La cinquième partie est la méthode de reconnaissance des émotions. Ensuite, nous montrons l'expérience et les résultats dans la section 6. Voir la section VII pour discussion. La conclusion est contenue dans la section 8.

2. Travaux connexes

A. Cloud computing virtuel
Il existe de nombreuses recherches sur le cloud computing dans le domaine des transports [11] - [14]. Wan et al. [15] ont proposé un système de surveillance du champ de bataille basé sur le cloud computing mobile. Hashim Eza et al. [16] ont proposé un nouveau modèle de système de réseau de véhicules, qui permet de fournir des services de reportage vidéo en temps réel fiables, sécurisés et respectueux de la confidentialité. Sorkhoh et al. [17] ont résolu le problème du déchargement de la charge de travail et de la planification des tâches informatiques sur les ressources informatiques disponibles en périphérie. Aissioui et al. [18] ont introduit le concept de Follow Me Edge Cloud (FMeC), en utilisant l'architecture Mobile Edge Computing (MeC) pour répondre aux besoins des systèmes automobiles. Tao et al. [19] ont proposé une plate-forme de cloud computing montée sur véhicule qui prend en charge la communication pour fournir des services de cloud de données montés sur véhicule efficaces.
B. Reconnaissance basée sur la parole
Ramakrishnan et El Emary [3] ont proposé les caractéristiques acoustiques de la perception des émotions de la parole et introduit 10 applications intéressantes de la perception des émotions de la parole. Dans la recherche sur la perception automatique des émotions de la parole, Chavhan et al. [4] ont utilisé Support Vector Machine (SVM) comme classificateur pour classer des états tels que «heureux», «triste», «neutre» et «peur». Le taux de réussite des résultats des tests est de 94,73% pour les hommes et de 100% pour les femmes. Le taux correct de cas neutres était de 93,75%.
C. Reconnaissance
faciale Monkaresi et al. [8] ont utilisé deux méthodes principales de reconnaissance des expressions faciales, l'une basée sur la géométrie et l'autre sur l'apparence. Ces deux méthodes ont leurs propres avantages et inconvénients, et leur combinaison a donné de bons résultats. Mariooryad et al. [20] ont examiné l'influence du processus de prononciation et des émotions internes sur les expressions faciales. Xu et al. [21] ont proposé une méthode appelée carte dynamique faciale, qui permet de détecter correctement l'émotion humaine même en cas de mouvement humain continu.Hu et al. [6] ont amélioré le MHI en utilisant la signature faciale détectée comme zone d'intérêt dans le calcul de l'image différentielle. Wu et al. [7] ont proposé deux méthodes qui combinent la posture de la tête et le regard des yeux dans une reconnaissance continue des émotions. Jiang et al. [5] ont proposé un algorithme de classification basé sur l'apprentissage des probabilités et de l'ensemble (PIL) pour résoudre des problèmes avancés de reconnaissance des émotions humaines.
D. Reconnaissance basée sur la biométrie
Lopez-Gill et al. [10] ont proposé une méthode pour étudier les émotions de base et complexes à l'aide de l'eye tracking, de la biométrie et de l'équipement de mesure d'électroencéphalogramme (EEG). Ferdinando et al. [22] ont dérivé la variabilité de la fréquence cardiaque (VRC) à partir de l'électrocardiogramme pour déterminer certaines des caractéristiques standard utilisées dans la reconnaissance des émotions et transférer l'émotion dans l'espace de prix de l'éveil. Katsigiannis et al. [23] ont proposé une base de données multimodale, DREAMER, qui intègre les données ECG et EEG. Les participants ont effectué une auto-évaluation après chaque stimulation pour réviser la base de données. Arunza et al. [24] ont décrit la complexité non linéaire des séries chronologiques courtes de la VRC et vérifié leur méthode dans des expériences d'induction d'émotions visuelles. Dabanlu et al. [9] ont analysé la VRC en stimulant des tons froids et chauds, et ont lié les émotions positives aux émotions négatives. Dabanlu et al. [9] ont proposé un système de reconnaissance des émotions basé sur l'IoMT. Appelhans et Lucken [25] ont conclu que la VRC est un outil de recherche accessible qui peut augmenter le processus de compréhension émotionnelle en social et en psychopathologie. Quintana et al. [26] ont prouvé qu’une VRC accrue peut améliorer la capacité d’une personne à reconnaître ses émotions.
Bien que ces méthodes aient atteint des performances significatives, nous résumons les limitations suivantes:
1) Afin de résister à l'influence des conditions d'éclairage, les méthodes traditionnelles ignorent les informations de luminosité, telles que LBP [8] ou les images en niveaux de gris .
2) Les méthodes traditionnelles de reconnaissance des émotions se concentrent principalement sur une seule image, avec peu ou pas de considération des informations contenues dans les changements d'heure du signal [8] - [21].
3) La plupart des méthodes utilisant des signaux physiologiques sont invasives et interfèrent avec le fonctionnement du conducteur. Les méthodes de détection basées sur la vidéo sont plus applicables et plus rentables.

Trois. Aperçu

Un nouveau cadre d'apprentissage en profondeur CBLNN est proposé, qui détecte la géométrie faciale humaine et la fréquence cardiaque via Kinect v2 pour estimer les émotions humaines. La figure 1 montre le diagramme de processus de la méthode CBLNN proposée. Kinect v2 est utilisé pour capturer les traits du visage. De plus, des changements périodiques de la luminosité du visage causés par le flux sanguin dans tout le corps peuvent être utilisés pour déterminer la fréquence cardiaque, et Kinect v2 peut détecter de tels changements pour capturer la fréquence cardiaque. Cette méthode utilise CNN pour effectuer une analyse géométrique du visage, puis les caractéristiques du visage obtenues via CNN participent au processus d'analyse de la fréquence cardiaque du double LSTM. La sortie du double LSTM sera entrée dans le CNN pour obtenir la fonction de fréquence cardiaque. CBLNN utilise un pool bilinéaire de décomposition multimodale pour fusionner les informations extraites et les diviser en cinq émotions communes.
La section suivante décrit les détails de la méthode CBLNN proposée.
Insérez la description de l'image ici

4. Extraction d'éléments de bas niveau

A. Extraction de la fonction de fréquence cardiaque

La fréquence cardiaque a une forte corrélation avec les émotions du visage. McCraty et al. [27] ont observé que certains états mentaux sont toujours liés à différents facteurs psychologiques et comportementaux, et sont liés à des schémas de fréquence cardiaque spécifiques. La figure ci-dessous est un graphique de la fréquence cardiaque et de la vitesse. La figure 2 montre les changements de fréquence cardiaque sous des émotions spécifiques.
Insérez la description de l'image iciLa fréquence cardiaque est collectée par Kinect v2. Cet appareil peut détecter les changements périodiques de la luminosité du visage causés par la circulation sanguine dans tout le corps. En fait, avec le flux sanguin, la surface de la peau humaine changera légèrement et l'appareil Kinect reconnaîtra rapidement les changements de la peau humaine à travers la caméra. La luminosité détectée par le capteur de la caméra Kinect est inversement proportionnelle à la quantité de lumière absorbée par le sang à travers les muscles du visage. Plus la lumière est faible lorsque le sang passe à travers les muscles du visage, plus le capteur détecte de lumière. Les changements périodiques de luminosité peuvent être décrits comme des signaux / ondes qui peuvent être utilisés pour déterminer la fréquence cardiaque. L'analyse indépendante des composants (ICA) est utilisée pour faire correspondre les changements de luminosité à la fréquence cardiaque. L'analyse indépendante des composants est une méthode d'analyse du signal basée sur des caractéristiques statistiques d'ordre élevé du signal. Le signal aléatoire observé suit:
Insérez la description de l'image ici
où X est la matrice du signal d'observation, et il existe une corrélation statistique entre chaque signal d'observation. Après la transformation de la matrice de transformation W, la corrélation entre les composantes de signal de la matrice de signal S est réduite. Joint Approximate Diagonalization (JADE) de la matrice de caractéristiques, un algorithme d'analyse de composants indépendants est utilisé pour fournir une matrice de séparation pour les données mixtes R, V, B, IR. Utilisez un algorithme d'analyse de composants indépendant pour fournir une matrice de séparation pour les données mixtes rouges, vertes, bleues et infrarouges

Le but de l'algorithme JADE est de calculer l'inverse de la matrice de mélange, qui peut être décrite en quatre étapes [28]:
Insérez la description de l'image iciAprès séparation, utilisez la transformation de Fourier rapide pour extraire le signal [29]. Utilisez le filtrage passe-bande pour trouver une plage de fréquence cardiaque correspondante. La bande de fréquence va de 0,7 Hz à 4 Hz, ce qui équivaut à 42 à 240 battements cardiaques par minute [30].

B. Extraction des caractéristiques géométriques
des visages humains Le SDK de suivi de visage fourni par Kinect est très fiable et peut suivre les visages humains en temps réel. Le SDK de suivi de visage peut fournir 121 points partagés 3D et 100 points de suivi [31]. La zone de délimitation du visage peut être déterminée par les points caractéristiques du visage. En raison de l'influence de la lumière, de l'angle ou de l'arrière-plan, l'existence de bruit dans les images de visage est inhérente, il ne peut donc pas être utilisé directement pour l'extraction de caractéristiques de visage. Ces images doivent être prétraitées. Après la découpe, la mise à l'échelle, le filtrage, le débruitage, l'égalisation d'histogramme et l'égalisation des gris, l'image originale obtenue devient une image standard normalisée pour l'extraction de caractéristiques ultérieure.

Après avoir coupé et mis l'image à 48px × 48px, l'ondelette de Gabor est utilisée pour le traitement d'image [32]. Dans ce travail, l'ondelette de Gabor à enveloppe gaussienne circulaire est souvent utilisée pour la reconnaissance faciale. La fonction principale est définie comme suit: L'
Insérez la description de l'image icianalyse en composantes principales est une méthode de mappage linéaire qui projette des vecteurs de caractéristiques sur des sous-espaces de faible dimension. Une fois que le vecteur de caractéristiques faciales est extrait par la transformée de Gabor, l'analyse des composants principaux est appliquée pour obtenir une analyse des caractéristiques de faible dimension. Séparez les vecteurs de caractéristiques obtenus sous différents filtres et utilisez l'analyse en composantes principales pour réduire la dimensionnalité des vecteurs de caractéristiques obtenus sous chaque filtre. La dernière caractéristique de chaque échantillon est toujours composée de plusieurs vecteurs de même dimension.

V. Structure de réseau du modèle CBLNN

La structure du réseau du CBLNN est illustrée à la figure 4. Dans CBLNN, CNN est utilisé pour traiter la géométrie faciale. CNN [34] est une méthode d'apprentissage en profondeur largement utilisée pour résoudre des problèmes complexes. Le réseau se compose d'une couche convolutive et d'une couche de regroupement. Il effectue d'abord la convolution, puis fusionne et alimente la sortie en tant qu'entrée vers la couche convolutionnelle suivante, et ainsi de suite.

Insérez la description de l'image ici
Les caractéristiques de CNN lui confèrent des avantages significatifs dans l'extraction des caractéristiques d'image. Basé sur la compréhension de la perception locale des cellules visuelles biologiques, CNN utilise des filtres partiels pour la convolution. Plus précisément, l'opération entre la sous-matrice locale du terme d'entrée et le filtre local est un produit interne. Afin de mieux représenter les données, nous utilisons la couche convolutionnelle pour traiter plusieurs matrices de sortie à travers des filtres. La taille de chaque matrice de sortie est (N-m + 1). Le processus d'opération spécifique est le suivant,
Insérez la description de l'image ici
où x1, ji et l représentent l Couche convolutive, I représente une valeur de I matrice de sortie de convolution, j représente le nombre de matrices de sortie correspondantes. L'indice de la couche de gauche à droite correspond à 0 à N, où N se réfère au nombre de convolutions de la matrice de sortie. f est une fonction non linéaire, et la fonction sigmoïde est utilisée ici.

La couche de mise en commun de CNN est un processus qui réduit encore la dimension de la matrice sans détruire la connexion interne des données. La couche de pooling peut choisir la valeur maximale (pooling maximum) ou moyenne (pooling moyen). Cependant, dans cette méthode, nous utilisons une couche de pooling moyenne, dont l'entrée provient de la couche convolutionnelle précédente, et sa sortie est utilisée comme entrée de la couche suivante.

Le pool moyen est utilisé pour réduire la dimensionnalité par la moyenne locale. La procédure d'opération détaillée est la suivante,
Insérez la description de l'image ici
où xl, ji représentent les éléments de sortie de la paire locale après la mise en commun.

Cette méthode utilise Kinect pour détecter la peau du visage en temps réel et calcule les caractéristiques comportementales du corps humain grâce aux données de la peau du visage. Avant d'entraîner et de tester le réseau neuronal convolutif d'entrée, les données d'entrée doivent être prétraitées. Le processus de collecte de données limite la taille à un vecteur 15 × 1, où 15 représente la dimensionnalité après la projection dans le sous-espace de faible dimension. L'analyse des composants principaux peut non seulement réduire la dimension de l'entité, mais aussi préserver autant que possible les informations d'origine. De plus, les traits du visage obtenus sous différents filtres sont séparés et réduits en dimension. L'objectif est de maintenir la corrélation spatiale des entités. Ceci est plus approprié pour l'extraction de caractéristiques CNN.

La sortie de la dernière couche convolutive est utilisée comme variable intermédiaire pour participer au processus d'analyse double LSTM [35] de la fréquence cardiaque.

Le Dual LSTM est une sorte de RNN (réseau neuronal récurrent). Le double LSTM est utilisé pour coder une séquence de points de signal de fréquence cardiaque (N points d'acquisition) d'action continue dans un vecteur et les enregistrer comme hN. Contrairement à d'autres algorithmes, le double LSTM peut suivre les informations, ce qui est idéal pour le traitement des séquences. Le double LSTM combine le vecteur de point de signal de fréquence cardiaque h0 avec le deuxième vecteur de point de carte de fréquence cardiaque pour générer un nouveau vecteur h1. T hen continue à être combiné avec le prochain vecteur de point de carte de fréquence cardiaque pour générer h2, un ndso on, jusqu'au vecteur hN.

Bien que LSTM puisse capturer des informations de séquence à long terme, il ne considère qu'une seule direction. Cela signifie que la trame actuelle du LSTM n'est affectée que par l'état actuel. Pour renforcer cette relation, nous considérerons également la trame suivante lors du traitement de la trame courante. Dual LSTM convient à cette situation. La première couche est un LSTM avant et la deuxième couche est un LSTM arrière. La sortie finale peut être calculée selon la formule suivante:

Six. Expérience

A. Environnement expérimental

Nous avons mené deux séries d'expériences pour évaluer notre méthode. Le premier ensemble d'expériences consiste en deux sous-expériences. Le premier analyse la précision de l'estimation de la fréquence cardiaque. La deuxième expérience est une expérience comparative avec d'autres modèles. Le deuxième ensemble d'expériences consiste à vérifier le débit de transmission dans un environnement de simulation.

Pour des raisons de sécurité, nous avons choisi un environnement de conduite simulé pour collecter des données. Douze volontaires ayant une expérience de conduite ont été invités à collecter des données, dont 3 femmes et 9 hommes. Comme le montre la figure 5, Kinect est placé directement devant le conducteur, ce qui lui permet de capturer le visage du conducteur. Chaque vidéo a été découpée en segments d'une minute et marquée par les volontaires eux-mêmes.

Dans l'étape suivante, les traits du visage obtenus via CNN seront utilisés comme entrée du double LSTM. Son objectif est de participer à l'analyse des données de fréquence cardiaque par Bi-LSTM. Afin de classer les émotions, Softmax est connecté après MFB. Le résultat de Softmax est la classification de reconnaissance des émotions. Enfin, le réseau récurrent est formé par BPTT [37]. Plus précisément, le lot est défini sur 64 et l'élan est de 0,9. Le taux d'apprentissage commence à 0,01. Ensuite, toutes les 20 000 itérations, le taux d'apprentissage est divisé par 10. Après 50 000 itérations, la formation a convergé. L'échantillon de test est présenté dans le tableau 1, qui contient cinq émotions fournies par le sujet. Une partie de l'échantillon est illustrée à la figure 6.
Insérez la description de l'image iciB. Analyse de l'estimation de la fréquence cardiaque

La fréquence cardiaque dans l'expérience est estimée sur la base des données faciales. Tout d'abord, nous évaluons la précision de cette fréquence cardiaque. Nous obtenons la fréquence cardiaque grâce aux données faciales sur une période de temps. Pour quantifier l'effet de la taille de la fenêtre mobile sélectionnée sur la précision de la fréquence cardiaque, nous avons testé trois tailles de fenêtre mobile différentes. Il est à noter que la fréquence cardiaque d'une personne normale est comprise entre 42 et 240 bpm, ce qui signifie que l'intervalle des battements cardiaques sera de 0,7 à 4 secondes. Sur la base de ce fait, nous avons choisi cinq tailles de fenêtres mobiles différentes de 0,5 s, 1 s, 2 s, 4 s et 8 s pour l'analyse. La vérité terrain est mesurée par le capteur ECG BMD 101.

Comme le montre le tableau 2, la taille de la fenêtre mobile de 4 secondes a la plus grande précision. Dans l'expérience horizontale, la taille de la fenêtre mobile de mesure de la fréquence cardiaque est définie sur 4 secondes. La figure 7 montre clairement que la mesure sans contact de la méthode de la fréquence cardiaque (Kinect v2) est étroitement liée aux faits de base. La figure 8 montre la distribution des erreurs.
Insérez la description de l'image ici
Insérez la description de l'image iciInsérez la description de l'image iciC. Reconnaissance
Dans cette expérience, différents niveaux de caractéristiques émotionnelles sont utilisés pour évaluer les performances du modèle. Comme nous l'avons vu dans la section 3, nous avons évalué les performances de la géométrie faciale et de la fréquence cardiaque séparément. Ensuite, nous avons évalué les performances de ces combinaisons de caractéristiques émotionnelles. Dans les deux sous-sections suivantes, nous utilisons la méthode sans fréquence cardiaque, la méthode [6] et la méthode [9] pour analyser nos résultats.

1) Reconnaissance par la géométrie faciale uniquement: Tout d'abord, nous vérifions l'influence de la géométrie faciale sur notre ensemble de données expérimentales comme base de comparaison. Nous avons effectué un total de 100 tests et trié les résultats de ces tests, sélectionné les données triées du 10 au 90 et calculé la moyenne. Comme le montre le tableau 3, notre méthode sans fréquence cardiaque permet de détecter «heureux» (86,36%), «en colère» (84,00%), «triste» (83,96%) et «neutre» (86,43%), la peur Le taux de précision est relativement faible, seulement 49,09%. Notre méthode peut atteindre la même précision que la méthode [6] et la méthode [9]. On peut voir que notre modèle a une précision similaire pour identifier le bonheur, la colère, la tristesse et la neutralité. Mais la précision de la peur est beaucoup plus faible. Cela peut être dû au fait que l'émotion de peur est trop complexe et que l'expression de cette émotion sur le visage est trop similaire à d'autres émotions.
Insérez la description de l'image ici

2) Reconnaissance par géométrie faciale et fréquence cardiaque:

De même, nous avons effectué un total de 100 tests et trié les données de ces résultats de test, sélectionné les données triées du 10 au 90 et calculé la moyenne. Comme le montre le tableau 4, notre méthode de fréquence cardiaque fonctionne bien pour détecter «heureux» (91,36%), «en colère» (90,50%), «triste» (91,51%) et «neutre» (89,15%). En comparant les résultats avec les résultats sans fréquence cardiaque, la fréquence cardiaque a augmenté de 5,00%, 6,50%, 7,55%, 10,00% et 2,71% respectivement, ce qui a prouvé que l'introduction de la fréquence cardiaque peut améliorer la précision. Mais le taux d'exactitude de la peur est encore bien inférieur à celui des autres émotions. Cela montre que la combinaison des traits du visage et des caractéristiques de la fréquence cardiaque ne permet pas de bien distinguer la peur. Cela peut être dû au fait que les caractéristiques de la fréquence cardiaque sous peur ne sont pas très différentes des autres émotions et ne sont pas suffisantes pour aider les traits du visage à bien distinguer la peur.
Insérez la description de l'image iciComme le montre le tableau 5, notre méthode est supérieure à la méthode [6] et à la méthode [9]. Il convient de noter que la méthode [9] évalue uniquement l'exactitude de «heureux», «triste» et «neutre». L'exactitude de la colère et de la peur ne s'applique pas ici. Enfin, la comparaison globale est illustrée à la figure 9.
Insérez la description de l'image ici

Insérez la description de l'image ici3) Efficacité de la transmission:
Dans cette partie de l'expérience, nous devons tester la vitesse de réponse de la méthode CBLNN proposée. Le processus de réponse comprend l’envoi du flux vidéo au centre de traitement et le renvoi au centre de commande et au véhicule une fois que le centre de traitement a terminé la reconnaissance des émotions du conducteur. En supposant que la distance de transmission R du véhicule est de 500 m et que la vitesse du véhicule est constante à 100 km / h, une résolution de transmission en temps réel ininterrompue et stable de 1920 × 1080 (débit binaire d'environ 8 Mbps) peut atteindre une vitesse de 1,2 Gbps. Le temps de réponse est inférieur à 100 ms, dont la plupart sont utilisés pour le traitement des données et la reconnaissance des émotions en temps réel.

Sept. Discussion

Dans l'expérience, les résultats du bonheur, de la tristesse, de la colère et de la neutralité sont acceptables, tandis que les résultats de la peur ne sont pas satisfaisants. Dans le même temps, on peut voir grâce à une analyse comparative que l'introduction de la fréquence cardiaque peut en effet améliorer la précision. Nous soupçonnons que la faible précision de la peur est également causée par deux autres facteurs: l'insuffisance des données collectées, la courte durée de la peur (généralement causée par des conditions routières soudaines) rendant la détection difficile et la forme géométrique du visage redouté dans notre ensemble de données n'est pas Très clair. Comme le montre le tableau 3, un nombre considérable d'échantillons de peur sont considérés comme neutres.

Pour améliorer encore la précision, nous prévoyons d'intégrer d'autres fonctionnalités, telles que l'estimation de la direction du regard, l'évaluation de la mise au point du conducteur ou l'intégration de fonctionnalités vocales. Dans les travaux futurs, nous rendrons l'environnement simulé aussi réel que possible. Dans notre expérience, lorsque les volontaires font face à des situations inattendues, l'amplitude des mouvements est plus grande et il y a aussi un effet de vibration. Mais dans cette expérience, ces échantillons ont été ignorés

8. Conclusion

Cet article propose une nouvelle méthode de reconnaissance des émotions du conducteur basée sur les traits du visage et la fréquence cardiaque. CBLNN utilise CNN pour analyser la géométrie faciale, et les traits du visage obtenus via CNN seront utilisés comme données d'entrée de Bi-LSTM Son objectif est de participer à l'analyse de Bi-LSTM des données de fréquence cardiaque. CBLNN utilise MFB pour fusionner les caractéristiques extraites et effectuer la classification. Dans la partie expérimentale, nous avons prouvé que l'ajout de la fréquence cardiaque estimée peut compenser le manque d'informations de luminosité et améliorer la précision. Les résultats expérimentaux montrent que cette méthode permet de percevoir rapidement et de manière stable les émotions humaines.

Phrase de vocabulaire

équipement de collecte de données
capacité de généralisation
Électrocardiogramme (ECG)
Électromyographie (EMG)
un système de surveillance du champ de bataille
planification des tâches de calcul planification des tâches de calcul
calcul d'image de différence. Calcul d'image de différence
une probabilité et apprentissage intégré ( Algorithme de classification basé sur PIL)
Variabilité de la fréquence cardiaque (VRC) basée sur l'algorithme de classification de probabilité et d'apprentissage intégré (PIL) La variabilité de la fréquence cardiaque (VRC)
est inversement proportionnelle à
l'analyse en composantes indépendantes (ICA) Analyse en composantes indépendantes (ICA)
Approximation conjointe Diagonalisation des matrices propres (JADE), la diagonalisation approximative conjointe de la matrice caractéristique (JADE)
calcule l'inverse de la matrice de mélange
prétraitée prétraitée; prétraitée (le passé et participe passé du prétraitement)
expérience latérale Expérience horizontale

Je suppose que tu aimes

Origine blog.csdn.net/ningmengshuxiawo/article/details/109355915
conseillé
Classement