Análisis del algoritmo de referencia de la biblioteca Dlib (árbol de regresión integrado ERT)

 El punto de referencia es una técnica para extraer puntos característicos de rostros humanos. La biblioteca Dlib es un marcador de 68 puntos para rostros humanos. Hay un diagrama esquemático del efecto y el número del punto de calibración en el artículo "Cómo llamar a la biblioteca Dlib para marcar puntos clave de rostros humanos". En el futuro, los puntos en el punto de referencia se pueden usar para extraer el área de los ojos y la boca para la detección de fatiga, y la nariz y otras partes se pueden usar para la estimación de pose en 3D.

      La biblioteca Dlib usa el algoritmo mencionado en "Alineación de caras de un milisegundo con un conjunto de árboles de regresión" CVPR2014: ERT (conjunto de árboles de regresión) regresión en cascada, que es un método de árbol de regresión basado en el aprendizaje de mejora de gradiente. El algoritmo utiliza factores de regresión en cascada. Primero, se utiliza una serie de imágenes faciales calibradas como conjunto de entrenamiento, y luego se genera un modelo.

      el objeto shape_predictor_trainer para entrenar a un shape_predictor utilizando un conjunto de imágenes de entrenamiento, cada una de ellas anotada con formas que desea predecir. Para hacer esto, shape_predictor_trainer utiliza el método más avanzado.

      Utilice el método de correlación basado en la selección de características para proyectar la salida de destino ri en una dirección aleatoria w, y seleccione un par de características (u, v) para que Ii (u ') -Ii (v') esté en el objetivo proyectado wTri Los datos de entrenamiento tienen la mayor correlación de muestra.

      Después de obtener una imagen, el algoritmo generará una forma inicial al estimar primero una posición aproximada del punto de característica, y luego usar el algoritmo de aumento de gradiente para reducir la suma del error cuadrado de la forma inicial y la verdad del terreno. Se utiliza el método de mínimos cuadrados para minimizar el error, y se obtiene el factor de regresión en cascada de cada nivel. La fórmula central se muestra a continuación:

 


La fórmula central del algoritmo
      usamos el gradiente para mejorar el aprendizaje del árbol de regresión para entrenar cada rt, y usar el método de mínimos cuadrados para minimizar el error. t representa el número de serie de la cascada y rt (∙, ∙) representa el regresor del nivel actual. Los parámetros de entrada del regresor son la forma actualizada de la imagen I y el nivel anterior del regresor, y las características adoptadas pueden ser valores grises u otros. Cada regresor está compuesto por muchos árboles, y los parámetros de cada árbol se obtienen mediante entrenamiento basado en la diferencia de coordenadas de la forma actual y la verdad del terreno y los pares de píxeles seleccionados al azar.

        A diferencia de LBF, ERT almacena directamente el valor actualizado ΔS de la forma en el nodo de la hoja durante el aprendizaje del árbol. La posición inicial S es después de todos los árboles aprendidos, forma media más todos los nodos de la hoja ΔS, puede obtener la posición final clave de la cara. El proceso general se muestra a continuación:

 


Proceso de regresión, minimizar el error
adjunto: Comparación de algoritmos de extracción de características faciales (ASM, CLM, ERT, etc.) Consulte el siguiente blog:

http://blog.csdn.net/u013803245/article/details/51263808
——————————————————
Aviso de copyright: Este artículo es un artículo original del blogger de CSDN "zzyy0929" 4.0 Acuerdo de copyright BY-SA, adjunte el enlace de origen original y esta declaración.
Enlace original: https://blog.csdn.net/zzyy0929/article/details/78323256

Supongo que te gusta

Origin www.cnblogs.com/Ph-one/p/12752158.html
Recomendado
Clasificación