【论文阅读】Un sistema inteligente para monitorear la participación de los estudiantes en la enseñanza en aulas grandes a través de

【论文阅读】Un sistema inteligente para monitorear la participación de los estudiantes en la enseñanza en aulas grandes a través del reconocimiento de expresiones faciales

Resumen

Este blog hace referencia al artículo Un sistema inteligente para monitorear la participación de los estudiantes en la enseñanza en aulas grandes a través del reconocimiento de expresiones faciales recopilado por Expert System en WILEY en 2021 , y resume su contenido principal para profundizar la comprensión y la memoria.

1. Introducción

1) Los sistemas de gestión de aulas fuera de línea a gran escala pueden ayudar a los profesores a aliviar la carga de actividades pesadas como el seguimiento de la asistencia, la recopilación de comentarios en el aula, la participación de los estudiantes o el control de la atención, mejorando así el mejor efecto de enseñanza. Se ha convertido en un área de investigación activa y desafiante en los últimos años.

2) Es necesario que los estudiantes participen en el aprendizaje en el aula, lo que mejora la calidad general del aprendizaje en el aula y el progreso académico (De Villiers & Werner, 2016). Actualmente, existe un problema creciente de desconexión de los estudiantes debido a varias razones, como la falta de atención, la falta de interacción entre el maestro y el estudiante y los métodos de enseñanza imperfectos (Bradbury, 2016; Lamba et al, 2014). Las grandes aulas fuera de línea (con más de 60 estudiantes) pueden exacerbar este problema. Los maestros experimentados pueden monitorear la participación de los estudiantes observando el comportamiento y las interacciones de los estudiantes en clases pequeñas. Sin embargo, incluso estos maestros experimentados enfrentaron dificultades a medida que aumentaba el tamaño de las clases y no pudieron escalar más allá del umbral de número de estudiantes debido a limitaciones artificiales (Exeter et al, 2010). Además, muchas universidades (especialmente las instituciones de educación superior) no tienen todos los profesores que sean expertos en enseñanza con experiencia. A menudo tienen poca o ninguna capacitación/tiempo asignado para enseñar y mejorar las habilidades de enseñanza para aumentar la participación y el compromiso de los estudiantes. Para los docentes que desean mejorar su enseñanza, quedan varios desafíos, incluida la falta de oportunidades para recibir una retroalimentación adecuada sobre sus habilidades docentes. Actualmente, la práctica más efectiva para este tipo de desarrollo profesional es contratar a expertos humanos profesionales para observar una o más conferencias y brindar retroalimentación formativa individualizada al disertante. Por supuesto, esto es costoso, no escalable y, lo que es más importante, impide un ciclo de retroalimentación de aprendizaje continuo para el maestro. Por lo tanto, el enfoque automatizado para el monitoreo de la participación de los estudiantes propuesto en este estudio puede respaldar el desarrollo profesional de los docentes novatos a gran escala y también puede ayudar potencialmente a los docentes experimentados a evaluar y mejorar la participación de los estudiantes y el proceso de enseñanza general en la enseñanza de clases grandes.

3) En la literatura de investigación educativa, el compromiso de los estudiantes se define como que tiene múltiples dimensiones y componentes. Fredricks y otros (2004) lo definieron de tres maneras: compromiso conductual, afectivo y cognitivo . El compromiso conductual describe los comportamientos conductuales durante el aprendizaje, como la postura corporal correcta y la escritura de notas. El compromiso emocional describe las respuestas emocionales positivas y negativas al aprendizaje, como la atención, el aburrimiento y la frustración. El compromiso cognitivo conduce a un aprendizaje que mejora las habilidades cognitivas, incluida la resolución de problemas, el conocimiento y el pensamiento creativo. Según (Li, Y., & Lerner, RM 2013), el comportamiento y el compromiso emocional están relacionados bidireccionalmente. Además, el compromiso conductual influye en el compromiso cognitivo, un resultado importante del proceso de aprendizaje. Este trabajo (Sathik & Jonathan, 2013) demostró estadísticamente que las expresiones faciales de los estudiantes están significativamente correlacionadas con su comportamiento y estado emocional, lo que ayuda a identificar su nivel de participación en la clase.

4) Whitehill et al (2014) dividieron los métodos de evaluación del compromiso de los estudiantes en tres categorías, a saber , métodos manuales, semiautomáticos y automáticos .

① Los métodos manuales incluyen autoinformes en papel o en computadora (Haddad 2014), métodos basados ​​en encuestas como la Encuesta Nacional de Compromiso Estudiantil (NSSE) (Kuh, GD 2003), el Instrumento de Compromiso Estudiantil (SEI) (Appleton et al. al., 2006), Método de lista de verificación de observación y escala de calificación (Odiri Amatari, 2015; Dzelzkaleja & Kapenieks, 2016). Estos métodos siguen siendo laboriosos, tediosos, intermitentes y susceptibles de sesgo.

② Los métodos semiautomáticos incluyen el seguimiento del conocimiento y los métodos fisiológicos

  • En Knowledge Tracking, los maestros evalúan el compromiso de los estudiantes evaluando las respuestas de los estudiantes a las preguntas durante la instrucción. (Griol, D., et al. 2017; Mogwe, aw 2018) se utilizan para realizar este método sin esfuerzo.
  • En el enfoque basado en la fisiología, la participación de los estudiantes se monitorea mediante el procesamiento de señales fisiológicas, como señales cerebrales (electroencefalograma [EEG]), señales cardíacas (electrocardiograma [ECG]) utilizando dispositivos portátiles como pulseras de actividad física y sensores de actividad electrodérmica. et al., 2018). Estos métodos semiautomáticos tienen limitaciones como ser susceptibles a la intervención humana y costosos.

Además, para medir las señales fisiológicas, se conectan al usuario mediante cables diferentes sensores portátiles de actividad electrodérmica, lo que dificulta su uso durante largos periodos de tiempo (Dirican & Göktürk, 2011).

③Los métodos automatizados incluyen métodos basados ​​en la visión que miden la participación de los estudiantes mediante el análisis de señales no verbales, como expresiones faciales y miradas en la cabeza en video capturado por cámaras de vigilancia de alta definición (HD). Este método automatizado es una forma no intrusiva, efectiva, simple, imparcial y económica de medir la participación de los estudiantes en cualquier entorno de aprendizaje, como el aprendizaje en el aula en línea o fuera de línea.

5) Los avances en las tecnologías de inteligencia artificial, como la computación afectiva, la visión por computadora y el aprendizaje profundo, se utilizan para desarrollar sistemas automatizados de monitoreo de participación (AEMS) . AEMS monitorea e informa automáticamente la participación de los estudiantes mediante el análisis de señales no verbales sin intervención humana. El análisis de los estados afectivos académicos de los estudiantes (por ejemplo, emociones y estados de ánimo) tiene el potencial de crear aulas inteligentes que controlen y analicen de manera autónoma el compromiso y el comportamiento de los estudiantes en tiempo real . En la literatura reciente, se han propuesto muchos trabajos para explotar las señales emocionales y de comportamiento de los estudiantes para desarrollar AEMS en el campo de la educación.

  • Entre ellos, la mayoría de los trabajos abordan el entorno de aprendizaje electrónico de un solo estudiante en un solo cuadro de video (Bosch et al. 2016; Krithika, L. & GG 2016; Ruipsamurez-Valiente et al. 2018; Sharma et al. et al. 2019; Mukhopadhyay et al. 2020; Bhardwaj, P. et al. 2021).
  • Algunos trabajos admiten entornos de aula fuera de línea con varios estudiantes en un cuadro de video (Zaletelj & Košir, 2017; Klein & Celik, 2017; Thomas & Jayagopi, 2017; Soloviev, 2018; Ashwin & Guddeti, 2019; Zheng Ru, et al. 2020; Luo Zhong, et al. 2020; Vanneste et al, 2021; Peng, S., et al. 2021).

Para entornos de aulas grandes fuera de línea, la mayoría de estos trabajos sufren problemas de escalabilidad y no pueden estimar la participación de la población estudiantil en tiempo real. Además, estos trabajos utilizan emociones básicas como la felicidad, la ira, el miedo, la tristeza y la sorpresa (Ekman, 1992) como señales emocionales para la estimación de la atención, que no son adecuadas para entornos académicos . Estudios anteriores han demostrado que existen algunas distinciones entre las emociones académicas y las emociones básicas (Pekrun, 2000) .

6) Obra del autor y problemas resueltos

Trabajar:

① No expresado por emociones básicas (Wei, Q., et al. 2017). Este estudio utilizó seis estados afectivos académicos significativos, a saber: 'aburrimiento', 'confundido', 'concentrado', 'frustrado', 'bostezo' y 'somnolencia', relacionados con el ambiente de aprendizaje (D'mello, S . 2013; Tonguç y Özkara, 2020)

② Creó un conjunto de datos de expresión facial para extraer emociones académicas de los rostros de los estudiantes de videos de conferencias en el aula. Este conjunto de datos agrega muestras de expresiones faciales similares de tres conjuntos de datos públicos: BAUM-1 (Zhalehpour et al. 2016), DAiSEE (Gupta et al. 2016), Kamath et al. 2016) y YawDD (Abtahi et al. 2014), marzo) para aumentar la muestra del conjunto de datos

③ Cómo abordar cuestiones éticas y de privacidad de datos de los estudiantes a considerar en este tipo de trabajo

problema resuelto:

① ¿Podemos detectar la cara de cada estudiante en cada cuadro de un gran video de clase fuera de línea?

②¿Podemos reconocer el estado emocional académico de los estudiantes a través de las expresiones faciales?

③ ¿Podemos calcular los puntajes de participación de grupos de estudiantes individuales para cada cuadro de video?

④¿Podemos estimar la participación general de los estudiantes en tiempo real con suficientes recursos informáticos?

⑤ ¿Podemos verificar la correlación entre el modelo AEMS y la entrada estimada de los estudiantes autoinformada?

2. Trabajo relacionado

1) Marco único para un solo jugador

  • Whitehill y otros (2014) propusieron un sistema basado en aprendizaje automático para clasificar la participación de los estudiantes en un entorno de aprendizaje electrónico mediante el análisis de sus expresiones faciales y patrones de comportamiento. Sus experimentos concluyeron que SVM con características de Gabor se desempeñó mejor en la clasificación de la participación de los estudiantes con un valor de área bajo la curva (AUC) de 0,729.
  • Este trabajo (Bosch et al., 2016) utilizó algoritmos de visión por computadora y aprendizaje automático para detectar la influencia de las expresiones faciales y los movimientos corporales de los estudiantes mientras interactúan con un juego educativo en una computadora. Construyeron 14 modelos diferentes de aprendizaje automático para esto, como SVM, árbol de decisión. Precisión de la clasificación para cada estado afectivo medida por los valores de AUC: aburrido (0,61), confundido (0,65), feliz (0,87), comprometido (0,68) y deprimido (0,63).
  • Krithika, L. & GG (2016) desarrollaron un sistema que puede identificar y monitorear las emociones de los estudiantes en un entorno de aprendizaje electrónico y brindar retroalimentación en tiempo real sobre los niveles de concentración de los estudiantes. Utilizaron emociones como la excitación, el aburrimiento, los bostezos, la somnolencia y patrones anormales de movimiento de la cabeza y los ojos para predecir la concentración.
  • Este trabajo (Sharma et al 2019) propone un sistema de estimación en tiempo real para la participación de los estudiantes en entornos de aprendizaje electrónico mediante el análisis de las expresiones faciales básicas de los estudiantes. Entrenaron un modelo de reconocimiento de emociones basado en CNN con una precisión de validación del 70 %.
  • Zhang, H. y otros (2019) propusieron un modelo de clasificación binaria para los sistemas de reconocimiento de la participación de los estudiantes en entornos de aprendizaje en línea basados ​​en redes convolucionales 3D infladas (I3D) en el conjunto de datos DAiSEE. Para la clasificación de participación binaria, tanto la participación como la no participación lograron una precisión del 0,98 %.
  • Mukhopadhyay y otros (2020) propusieron un método para evaluar el estado emocional de los estudiantes en el aprendizaje en línea mediante la combinación de expresiones faciales básicas. Propusieron y entrenaron un modelo basado en una red neuronal convolucional (CNN) utilizando el conjunto de datos FER2013 y lograron una precisión de clasificación del 62 %.
  • P Bhardwaj y otros (2021) propusieron un enfoque basado en el aprendizaje profundo para la clasificación del compromiso de los estudiantes en tiempo real en un entorno de aprendizaje en línea mediante el análisis de las expresiones faciales básicas. -

Todos los enfoques anteriores abordan el problema de la supervisión automática de la participación de un solo alumno en un solo cuadro de video en un entorno de aprendizaje electrónico. Por lo tanto, estos trabajos no son factibles para resolver el problema de la estimación automática de la participación del grupo de estudiantes en grandes entornos de aula fuera de línea con varios estudiantes en un solo cuadro de video.

2) multijugador

  • Zaletelj y Košir (2017) intentaron estimar automáticamente la atención de los estudiantes en un entorno de clase fuera de línea utilizando señales no verbales. Utilizando algoritmos de aprendizaje automático, como árboles de decisión y k-vecinos más cercanos, desarrollaron un modelo extrayendo características 2D y 3D de la cámara Kinect One. Su sistema logra una precisión de prueba del 0,753 %, que se evalúa comparando la atención predicha con la verdadera atención dada por las anotaciones humanas. Debido a las limitaciones técnicas de la cámara Kinect, el análisis se limitó a 6 estudiantes en lugar de a toda la clase.

  • Klein y Celik (2017) desarrollaron Wits Intelligent Teaching System (Wits), un enfoque basado en CNN que ayuda a los maestros a brindar retroalimentación en tiempo real sobre la participación de los estudiantes utilizando señales de comportamiento positivas y negativas en grandes entornos de aula fuera de línea. Utilizando el conjunto de datos de comportamiento de los estudiantes en el aula creado, entrenaron un modelo basado en la arquitectura de Alexnet (Krizhevsky et al. 2012), logrando una precisión de validación del 89,60 %. El estudio no usó señales emocionales para estimar el compromiso de los estudiantes e involucró una sobrecarga computacional.

  • Este trabajo (Thomas & Jayagopi, 2017) utilizó algoritmos de aprendizaje automático y visión por computadora para clasificar el compromiso de los estudiantes con las señales faciales no verbales. Utilizaron una caja de herramientas de análisis facial en tiempo real de código abierto llamada OpenFace (Baltrušaitis et al., 2016) para crear un conjunto de datos de características correlacionadas que contienen vectores de características de 27 dimensiones. Utilizaron algoritmos de aprendizaje automático como SVM y regresión logística para entrenar los modelos en el conjunto de datos, y las tasas de precisión de clasificación alcanzaron el 0,89 % y el 0,76 %, respectivamente. Este estudio no se llevó a cabo en un salón de clases grande fuera de línea. Además, no se ha probado para evaluar la participación en tiempo real de grupos completos de estudiantes.

  • Soloviev (2018) propuso un sistema que analiza continuamente los flujos de datos visuales de las cámaras de las aulas al clasificar las expresiones faciales básicas de los estudiantes como emociones positivas o negativas. Entrenaron un modelo con un método de árbol de decisión potenciado de dos clases (Adaboost) y lograron una precisión de clasificación del 84,80 %. Este estudio no consideró las emociones académicas de los estudiantes para clasificar su nivel de compromiso.

  • Este trabajo (Ashwin & Guddeti, 2019) desarrolló un sistema basado en CNN que analiza las señales no verbales y clasifica la participación de los estudiantes en cuatro niveles: 'nada involucrado', 'nominalmente involucrado', 'participado' en la tarea" y "muy involucrado". Su sistema fue entrenado y probado en rostros, gestos con las manos y posturas corporales en un salón de clases grande fuera de línea, y pudo clasificarlos con un 71 por ciento de precisión. El método requirió 2153 milisegundos (2,153 segundos) para procesar un solo cuadro de imagen, lo que indica una gran sobrecarga computacional. Por lo tanto, no se puede utilizar en implementaciones en tiempo real.

  • Este trabajo (Zheng, R. et al. 2020) diseña un marco inteligente de monitoreo del comportamiento de los estudiantes que puede detectar comportamientos como levantar las manos, pararse y dormir de los estudiantes en un entorno de aula. Entrenaron el modelo usando un algoritmo de detección de objetos Faster R-CNN modificado para identificar el comportamiento antes mencionado con una precisión media (mAP) del 57,6 %. Dado que el modelo solo se usó para detectar el comportamiento de los estudiantes, las señales emocionales académicas no se pudieron usar para predecir el compromiso general de la población estudiantil.

  • Un estudio de 2020 realizado por Luo, Z. y otros presenta un modelo 3D que incluye algoritmos de bosque aleatorio condicional y jerárquico, y una interacción que utiliza la postura de la cabeza, la expresión facial y los teléfonos inteligentes para estimar el interés de los estudiantes en la plataforma del entorno del aula. El modelo logró una precisión de clasificación del 87,5%.

  • Peng, S. y otros (2021) propusieron una fusión multimodal de señales faciales, frecuencia cardíaca y características auditivas para monitorear los estados mentales de los estudiantes.

Se ha entrenado un conjunto de algoritmos de aprendizaje automático SVM, Random Forest y Multilayer Perceptron utilizando varias técnicas de fusión multimodal. Los dos estudios anteriores requirieron múltiples dispositivos físicos para medir los datos multimodales de los estudiantes, lo cual es costoso de usar en un entorno de aula grande fuera de línea.

  • Este estudio (Vanneste et al, 2021) presenta una técnica para evaluar la participación de los estudiantes en un entorno de clase mediante el reconocimiento de comportamientos de los estudiantes, como levantar la mano y tomar notas. Entrenaron un modelo de aprendizaje profundo para reconocer estos comportamientos y logró una tasa de recuperación del 63 por ciento y una tasa de precisión del 45 por ciento. El estudio no realizó experimentos en un salón de clases grande para la evaluación del compromiso en tiempo real. Además, no considera en su abordaje el estado académico-emocional de los estudiantes.

Ninguno de los trabajos anteriores intentó analizar el estado emocional académico de los estudiantes a través de expresiones faciales en un entorno de aula fuera de línea a gran escala, y desarrolló AEMS para monitorear la participación de los estudiantes en tiempo real.

3) Un resumen del trabajo relacionado con el seguimiento de la participación de los estudiantes en las aulas presenciales.

# 3. Importancia de la investigación y antecedentes técnicos

1)AEMS

La implementación de AEMS en el campo de la educación puede tener una amplia gama de aplicaciones:

  • En un entorno de aprendizaje a distancia, los profesores humanos pueden recibir comentarios en tiempo real sobre los niveles de participación de los estudiantes (bajo, medio, alto) (Whitehill et al., 2014)
  • Las respuestas de los estudiantes a los videos instructivos identifican y modifican automáticamente el contenido del video, lo que hace que los espectadores pierdan interés (Whitehill et al., 2014)
  • Los analistas educativos tienen acceso a grandes cantidades de datos para extraer los factores y variables que afectan la participación de los estudiantes. Estos datos tendrán una resolución temporal más alta que el autoinforme y los resultados del cuestionario (Whitehill et al., 2014)
  • El análisis de la participación de los estudiantes se puede utilizar como retroalimentación instantánea para ajustar las estrategias de instrucción para mejorar el proceso de aprendizaje de los estudiantes (Ashwin & Guddeti, 2019)
  • La retroalimentación diaria sobre las estrategias de enseñanza es beneficiosa para que los maestros principiantes mejoren rápidamente su experiencia docente (Ashwin & Guddeti, 2019)
  • En la era de Smart Campus, Smart University, los entornos de aprendizaje del campus son diversos, incluyendo aulas, seminarios web, entornos de aprendizaje electrónico, etc.
  • El monitoreo manual de los estudiantes es difícil y puede resolverse usando AEMS (Al-Nawaashi et al., 2017; Ashwin & Guddeti, 2019)

Además de usarse en el campo de la educación, AEMS también se puede usar en muchos otros campos, como el entretenimiento (Wang, S. & Ji,Q.; salud (Singh & Goyal, 2021), compras (Yolcu et al, 2020) , etc. Debido a que AEMS se puede utilizar en varios campos, por lo que cada campo necesita rediseñar un conjunto diferente de características contextuales de acuerdo con la dimensión de participación para obtener mejores predicciones. Es sensible para tratar con los datos visuales de las personas. Esto basado en emociones inteligencia artificial y tecnología informática afectiva El desarrollo y uso de tales sistemas autónomos introduce un nuevo conjunto de cuestiones éticas que requieren un comportamiento responsable, como el diseño del sistema, el uso ético de datos, la transparencia y la privacidad (Gretchen Greene 2020; Robin Murdoch 2020).

2) Computación afectiva

La computación afectiva (AC) es un campo que investiga y desarrolla sistemas y dispositivos que pueden sentir, reconocer y procesar las emociones humanas . Es un campo interdisciplinario que incluye computación, psicología y ciencia cognitiva. Con la ayuda de la inteligencia artificial, podemos transformar las máquinas informáticas en máquinas emocionalmente inteligentes que pueden comprender las emociones humanas y responder en consecuencia. AC tiene una amplia gama de aplicaciones en educación, salud, hogar inteligente, entretenimiento y muchos otros campos. Según una investigación realizada por investigadores de AC, la comunicación humana no solo se basa en la comunicación verbal, como la voz y el texto, sino también en la comunicación no verbal, como las expresiones faciales, la mirada fija, la mirada fija en la cabeza, los gestos y las posturas corporales (Poria et al, 2017).

La investigación (Sathik & Jonathan, 2013) ha demostrado que los canales de comunicación no verbal más utilizados por los estudiantes que escuchan en el aula son las expresiones faciales. A pesar de la disposición y el tamaño de los asientos en el aula, estas expresiones faciales estaban menos oscurecidas por los parámetros no verbales. Además, el procesamiento de este parámetro es menos intensivo desde el punto de vista computacional que el procesamiento de otros parámetros no lingüísticos, como la estimación de la postura del cuerpo.

4. Método

El marco del método incluye dos módulos, fuera de línea y en línea, como se muestra en la Figura 3. El módulo fuera de línea se basa en el modelo FER entrenado por CNN, y el módulo en línea se ejecuta en tiempo real, utilizando el modelo CNN entrenado por el módulo fuera de línea para estimar la participación de los estudiantes.

1) Protección de la privacidad

2) Módulo fuera de línea

El módulo fuera de línea se ejecuta una vez para desarrollar un modelo FER basado en CNN que acepta imágenes de rostros como entrada y predice etiquetas de estado emocional apropiadas como salida. Como parte del módulo fuera de línea, también se construye un conjunto de datos para entrenar la arquitectura CNN.

① Construcción del conjunto de datos ② Definición del estado emocional académico ③ Recopilación de datos y participantes ④ Anotación de datos faciales

⑥ Modelo CNN propuesto

3) Módulos en línea

Incluye cinco etapas, a saber: etapa de adquisición de video, etapa de preprocesamiento, etapa de clasificación de emociones del estudiante, etapa de posprocesamiento y etapa de visualización.

  • Primero toma una secuencia de cuadros de video y pone el contador de cuadros a cero. El contador de cuadros se incrementa en 1 a medida que cada cuadro de video se procesa en la etapa de preprocesamiento. La etapa de preprocesamiento devuelve rostros frontales alineados, donde los estados afectivos de estas imágenes de rostros son identificados por el modelo FER entrenado en el módulo fuera de línea.
  • Una vez que el valor del contador de fotogramas es igual al umbral predefinido, se dibujan gráficos de participación en tiempo real para los clips de video procesados ​​aplicando los pasos de posprocesamiento descritos en la Sección 4.2.4 para identificar etiquetas de estado afectivo (del paso 1 al paso 4) .
  • Después de la lección, se devuelve la etiqueta del nivel máximo de participación grupal acumulada como la retroalimentación de participación general del estudiante para toda la lección.

①Captura de video

②Pretratamiento:

  • Muestreo de cuadros: el paso de muestreo de cuadros muestra varios cuadros de video por segundo para estimar el nivel de participación de la población estudiantil. Según (Whitehill et al 2014), el procesamiento de 4 fotogramas por segundo de video en un intervalo de tiempo de 0,25 s produce casi los mismos resultados que el procesamiento de 30 fotogramas por segundo. Por lo tanto, en este paso de muestreo de cuadros, solo se procesan 4 cuadros de video por segundo con un intervalo de tiempo de 0,25 s, lo que reduce la sobrecarga computacional;
  • Detección y extracción de rostros: extraiga la cantidad máxima de rostros de cada cuadro de video utilizando un modelo de detección de rostros previamente entrenado. Utilizamos una red neuronal convolucional en cascada multitarea (MTCNN) como modelo de detección de rostros previamente entrenado (Zhang, K., et al. 2016). El modelo MTCNN logra resultados de vanguardia en la detección de parches faciales más pequeños con resultados falsos positivos insignificantes (donde los parches que no son rostros se detectan como parches faciales). El paso de detección de rostros devuelve una lista de coordenadas de parches de rostros y una lista de coordenadas de puntos de referencia de rostros. Cada coordenada del parche facial contiene cuatro valores, que son los valores de las coordenadas x e y de la esquina superior derecha, el ancho y el alto del rostro detectado. Estos cuatro valores se utilizan para extraer parches de imágenes de rostros de cuadros de video. La tabla de coordenadas de puntos de referencia faciales incluye valores de coordenadas para dos puntos de referencia en el medio de cada ojo, uno en la punta de la nariz y dos en las comisuras de la boca.
  • Estimación de la postura de la cabeza: el paso de detección de la postura de la cabeza elimina todas las caras no frontales de las caras detectadas, incluidas las inclinadas hacia la izquierda, hacia la derecha, hacia arriba y hacia abajo.

    Dado que el modelo FER no puede asignar etiquetas de estado emocional adecuadas a estas caras no frontales, se reduce la eficiencia del método. La estimación de la pose de la cabeza implica el uso de imágenes digitales para calcular la orientación 3D de la cabeza en relación con la pose de la cámara. Para ello, implementamos el método propuesto en el trabajo de (Mallick, 2016). En este trabajo, al asociar seis puntos de referencia faciales en 2D (cinco puntos de referencia como se muestra en la Figura 8 y un sexto en el mentón) con sus respectivos puntos de referencia posicionales en 3D (calculados en términos de coordenadas mundiales), se calcularon tres grados relacionados con la actitud, a saber, guiñada, cabeceo y balanceo. Una sexta coordenada de punto de referencia facial se calcula explícitamente utilizando las coordenadas de punto de referencia facial de la punta de la nariz y la comisura de la boca generadas por el modelo MTCNN. La rotación de un objeto en la dirección vertical se llama cabeceo. La rotación de un objeto en movimiento horizontal se llama guiñada. La rotación de un objeto en un movimiento circular (hacia la derecha o hacia la izquierda) se llama rodar. Elimine las caras inclinadas hacia la izquierda y hacia la derecha al establecer el umbral del grado de movimiento de guiñada. Del mismo modo, arriba y abajo se eliminan mediante el umbral del grado de cambio de tono.

  • Alineación de rostros y cambio de tamaño

Los parches frontales de la cara se refinan aún más en el paso de alineación de la cara. En general, no hay garantía de que todos los lados frontales estén alineados exactamente, como se muestra en la imagen de arriba. Algunas fachadas pueden inclinarse hacia la derecha o hacia la izquierda. La alineación de rostros es una tecnología de preprocesamiento de alineación estándar de rostros de imágenes digitales basada en la transformación de traslación, escala y rotación. Para ello, implementamos un enfoque propuesto en el trabajo de (Rosebrock, 2017). Otro beneficio implícito de este paso es la mejora de la imagen; reduce la borrosidad de la imagen al reposicionar los píxeles. Finalmente, estos frentes alineados se redimensionan a 48 × 48 (ancho × alto) píxeles, que luego se usan como entrada para el modelo FER entrenado.

③ Clasificación de los estados emocionales de los estudiantes

Compromiso bajo (EL1): aburrimiento, somnolencia; compromiso moderado (EL2): bostezos, frustración, confusión; compromiso alto (EL3): concentración

④ procesamiento posterior

  • Acumule todas las etiquetas de emociones faciales de los estudiantes previstas extraídas de los cuadros de video en los acumuladores respectivos (el acumulador actúa como un contador para cada etiqueta de estado de emoción)
  • Estos acumuladores se fusionan en sus respectivos acumuladores EL, EL1 (bajo), EL2 (medio) y EL3 (alto)
  • Repita este proceso hasta que el contador de cuadros sea igual al umbral predefinido
  • Una vez que el contador de fotogramas es igual a un umbral predefinido, el flujo de video de entrada se segmenta en un segmento de video (la etiqueta del acumulador EL máximo se devuelve como el nivel de participación del grupo (GEL) para ese segmento de video)
  • Acumule las etiquetas GEL de cada segmento de video en los acumuladores GEL respectivos, como GEL1 (bajo), GEL2 (medio), GEL3 (alto), que utilizan la retroalimentación de participación en la conferencia completa (FGEF)
  • Después de este procesamiento, el GEL del videoclip procesado se traza en el gráfico en tiempo real
  • Finalmente, cuando se completa el flujo de video de entrada, la etiqueta del acumulador GEL más grande se devuelve como FGEF para toda la lección.

5. Experimentos y Discusión

1) Configuración experimental

Para la implementación y los experimentos se utilizó un sistema de cómputo compuesto por un procesador Intel Core i5-8300H de octava generación a 2,30 GHz, 16 gb de RAM y una tarjeta gráfica NVIDIA GeForce GTX 1050Ti de 4 gb.

Una cámara de red de 2 megapíxeles (People Link Elite FHD-1080 con zoom óptico de 20x) está instalada en el aula inteligente de este departamento para grabar videos del aula.

2) Capacitación y evaluación del modelo CNN

3) Tiempo de cálculo

4. Resultados y discusión

5) Limitaciones

Este trabajo se limitó a los casos en que los estudiantes no tenían un alto grado de heterogeneidad en edad, cultura y antecedentes de clase. En este caso, asumimos que no habrá cambios significativos en la expresión, entonces un solo modelo es suficiente para reconocer sus expresiones faciales. Por lo tanto, la operación del modelo propuesto puede funcionar hasta cierto punto en el contexto anterior, pero puede ser diferente cuando se aplica a estudiantes de diferentes edades, culturas y antecedentes. Sin embargo, cuando el sistema se implementa en situaciones donde existe un alto grado de heterogeneidad en la edad, la cultura y los antecedentes de los estudiantes, recomendamos entrenar múltiples modelos FER considerando diferentes poblaciones e integrar los resultados de estos modelos para obtener el resultado final. La investigación actual evalúa principalmente la participación grupal de los estudiantes a través de las expresiones faciales. No hemos considerado combinaciones de diferentes señales no verbales como la postura del cuerpo, el movimiento de la cabeza y la mirada. Además, este estudio fue validado por los autoinformes de los estudiantes sobre las medidas de compromiso, en lugar de la validación externa por el propio juicio de los maestros, los observadores capacitados y los logros de aprendizaje de los estudiantes.

Supongo que te gusta

Origin blog.csdn.net/qq_44930244/article/details/130955034
Recomendado
Clasificación