aprendizaje profundo, tareas de visión por computadora

Tabla de contenido

Tareas de visión artificial

1. Algoritmo del vecino más cercano K

2. Función de puntuación

3. El papel de la función de pérdida

4. Propagar el proceso general hacia adelante

5. Método de cálculo de propagación hacia atrás

Tareas de visión artificial

El proceso de aprendizaje automático :

  1. recopilación de datos

  2. ingeniería de características

  3. Modelado

  4. Evaluación y Aplicación

Visión por computadora :

Representación de la imagen: la imagen a los ojos de la computadora, y una imagen se representa como una matriz tridimensional, con el valor de cada píxel que va de 0 a 255.

Desafíos en visión por computadora: ángulo de iluminación, cambio de forma, oclusión parcial y combinación de fondo

1. Algoritmo del vecino más cercano K

El algoritmo de clasificación K (k-Nearest Neighbor, KNN) es un método relativamente maduro en teoría y uno de los algoritmos de aprendizaje automático más simples. La idea de este método es: en el espacio de características, si la mayoría de las k muestras más cercanas a una muestra (es decir, los vecinos más cercanos en el espacio de características) pertenecen a una determinada categoría, entonces la muestra también pertenece a esta categoría. .

K proceso de cálculo del vecino más cercano :

  1. Calcula la distancia desde un punto en un conjunto de datos de tipo conocido hasta el punto actual

  2. Ordenar por distancia

  3. Seleccione K puntos con la distancia más pequeña desde el punto actual

  4. Determinar la probabilidad de ocurrencia de la categoría de los primeros K puntos

  5. Devuelve la categoría con la frecuencia de ocurrencia más alta de los primeros K puntos como la categoría de predicción de punto actual

Ejemplo de base de datos: CIFAR-10

Introducción a la base de datos:

10 tipos de etiquetas, 50.000 datos de entrenamiento, 10.000 datos de prueba, tamaño 32*32

El método de cálculo de distancia de la imagen es en realidad muy similar a la suma y resta de la matriz.

Limitaciones de K-Nearest Neighbors : no se puede usar para la clasificación de imágenes, porque el dominio del fondo es el mayor problema, nos enfocamos en el sujeto (componente principal)

2. Función de puntuación

De acuerdo con la función de puntaje, el puntaje de categoría de cada entrada se calcula de la siguiente manera: solo tenemos el puntaje de categoría y no podemos juzgar el efecto de clasificación, y la función de pérdida se usa para evaluar el efecto de clasificación.

Función lineal: mapeo desde entrada ---> salida

f(x, ancho) = ancho x

La fórmula de la función de puntuación es un método de cálculo que se utiliza para describir la puntuación en una situación determinada y, por lo general, se utiliza para puntuar, evaluar, etc. La fórmula de la función de puntuación generalmente consta de múltiples parámetros, cada parámetro representa un factor de influencia y la puntuación final se obtiene ponderando estos parámetros.

3. El papel de la función de pérdida

La función de pérdida es una función que asigna eventos aleatorios o sus variables aleatorias relacionadas a números reales no negativos.

En el aprendizaje automático, la función de pérdida se usa para medir la brecha entre los resultados previstos del modelo y los resultados reales y, por lo general, cuanto más pequeña, mejor. Por ejemplo, en problemas de regresión, puede usar el error cuadrático medio (MSE) y el error absoluto medio (MAE) como funciones de pérdida; en problemas de clasificación, puede usar la entropía cruzada (CrossEntropy) como función de pérdida, o usar la entropía cruzada binaria (Pérdida de BCEL), etc.

La matriz fuente es el resultado de la optimización.

El papel de la red neuronal es tratar los problemas correspondientes a través de la matriz Wi apropiada.

uTools_1688799265492

Hacer diferentes tareas es la diferencia en la función de pérdida.

En realidad, hay muchas funciones de pérdida, y lo que necesitamos es una forma de función que se acerque más a la realidad.

Función de pérdida :

1 aquí es equivalente a una estimación de un valor aproximado.

uTools_1688799735799

Aunque los valores de la función de pérdida de los dos modelos son los mismos, el modelo A considera el área local y el modelo B considera la situación general. Los dos énfasis son diferentes, pero los resultados son exactamente los mismos.

Función de pérdida = pérdida de datos + penalización por regularización (R(W))

Siempre esperamos que el modelo no sea demasiado complicado, y el modelo de sobreajuste no sirve para nada.

uTools_1688802832405

4. Propagar el proceso general hacia adelante

El algoritmo de propagación hacia adelante, también conocido como algoritmo de propagación hacia adelante, como sugiere el nombre, es un algoritmo que se realiza de adelante hacia atrás.

clasificador softmax

Ahora obtenemos una puntuación para la entrada, pero ¿no sería bueno darme una probabilidad?

¿Cómo convertir un valor de puntuación en un valor de tasa?

Esto tiene algo en común con el modelado matemático, que a menudo se puede dividir por una función similar para obtener un valor de probabilidad.

uTools_1688803136943

Normalizar y calcular el valor de pérdida

Propagar hacia adelante:

uTools_1688803485728

5. Método de cálculo de propagación hacia atrás

Como ejemplo:

uTools_1688803749742

Su fórmula funcional es: f(x,y,z) = (x+y)z

q=x+yf=q*z

uTools_1688803849371

El valor que desea solicitar: la derivada parcial de f a x, la derivada parcial de f a y, y la derivada parcial de f a z.

Esta es la regla de la cadena que aprendimos en matemáticas avanzadas, el gradiente se propaga paso a paso

uTools_1688804086446

La línea verde que vemos es nuestra parte anterior del cálculo de propagación hacia adelante, y la parte roja llevará el gradiente anterior al cálculo de propagación hacia atrás de la siguiente capa.

El algoritmo de retropropagación, denominado algoritmo BP, es un algoritmo de aprendizaje adecuado para redes neuronales multicapa, que se basa en el método de descenso de gradiente. La relación entrada-salida de la red BP es esencialmente una relación de mapeo: la función completada por una red neuronal BP con n entradas y m salidas es un mapeo continuo del espacio euclidiano de n dimensiones a un campo finito en el espacio euclidiano de m dimensiones. El mapeo es altamente no lineal. Su capacidad de procesamiento de información proviene de la composición múltiple de funciones no lineales simples, por lo que tiene una gran capacidad para reproducir funciones. Esta es la base para la aplicación del algoritmo BP.

 

Supongo que te gusta

Origin blog.csdn.net/Williamtym/article/details/132131895
Recomendado
Clasificación