Un tutorial introductorio sobre la visión por computadora basado en Paddle—Clase 2 Clasificación de la visión por computadora

dirección del tutorial de la estación B

https://www.bilibili.com/video/BV18b4y1J7a6/

métodos tradicionales de visión artificial

inserte la descripción de la imagen aquí

La visión por computadora tradicional puede usar bibliotecas de Python como Opencv para realizar operaciones simples en imágenes, como escalado de imágenes , filtrado , segmentación de umbral , etc. Para una computadora, una imagen en color es una matriz de tres canales , correspondiente a tres colores de **Rojo, Verde y Azul (RGB)**, y se puede mostrar una imagen en color completa cambiando el valor del color ( 0- 255 ) Para las imágenes, la visión artificial tradicional gira en torno a esta matriz tridimensional, como establecer un intervalo de color, realizar un filtrado, etc.

Este tipo de método de procesamiento visual tiene funciones relativamente débiles y puede manejar algunos escenarios de aplicación simples, como reconocer objetos verdes y reconocer objetos dinámicos . Pero para la escena real con un fondo complejo, muchos problemas son difíciles de resolver .

Dirección recomendada del tutorial de Opencv: https://github.com/CodecWang/opencv-python-tutorial

aprendizaje profundo

Hay muchos algoritmos para el procesamiento de imágenes a través de inteligencia artificial, el más clásico de los cuales es la red neuronal convolucional , que realiza operaciones de convolución continuas en la imagen original , extrae completamente las características y finalmente genera el resultado deseado. Este método ha sido verificado por la práctica. Tiene un rendimiento de precisión muy bueno y puede ejecutar efectos en tiempo real en muchos hardware actuales .

inserte la descripción de la imagen aquí

Por supuesto, también han surgido más tipos nuevos de algoritmos de procesamiento visual, como el recientemente popular algoritmo Transformer , que se aplicó originalmente a NLP ( Procesamiento del lenguaje natural ). Recientemente, los investigadores han descubierto que también muestra un rendimiento muy bueno en el campo visual. La mejor precisión se ha logrado en el campo, rompiendo el cuello de botella de precisión de la red neuronal convolucional . Nuestro tutorial en este número todavía gira en torno a la red neuronal convolucional, un algoritmo clásico, que todavía merece un estudio en profundidad.

inserte la descripción de la imagen aquí

Clasificación de tareas de visión artificial

Clasificación

La tarea de clasificación es clasificar la imagen completa, como la clasificación más clásica de gatos y perros .

inserte la descripción de la imagen aquí

La clasificación de perros y gatos es dejar que la computadora clasifique las imágenes que especifico. Si esta imagen es un gato, después de ingresar la imagen en el modelo, espero que la salida sea la categoría gato. Se puede ver que la tarea de clasificación consiste en clasificar la imagen completa . Si hay gatos y perros en una imagen, entonces obviamente la clasificación no se puede completar, porque la tarea de clasificación no necesita ubicar el objeto . La tarea de clasificación es la tarea más simple de la visión por computadora, la menos difícil de lograr y, por supuesto, la función más simple .

Detección

inserte la descripción de la imagen aquí

En comparación con la tarea de clasificación, la tarea de detección necesita ubicar con precisión el objeto objetivo en la imagen Generalmente, se usa un marco rectangular para determinar la posición del objetivo Como se muestra en la imagen de arriba, en una imagen hay perros, bicicletas y automóviles. Para la tarea de detección, es necesario enmarcar con precisión sus posiciones y distinguir las categorías . La tarea de detección es identificar las características de los objetos en la imagen. En comparación con la tarea de clasificación, es más difícil. También es un requisito que tenemos a menudo. Es necesario determinar con precisión la posición del objeto característico en la imagen. , como detección de peatones, detección de rostros , etc.

Segmentación

inserte la descripción de la imagen aquí

La dificultad de la tarea de segmentación aumenta nuevamente, la tarea requiere no solo determinar la posición, sino también delinear el contorno del objeto , similar al recorte de PS , y filtrar para eliminar el fondo. Por ejemplo, la lectura de contadores industriales que se muestra en la figura anterior , la segmentación de líneas de carriles , etc. Estas tareas requieren una mayor prueba de modelos y algoritmos, y tienen ciertas aplicaciones en ocasiones específicas.

Supongo que te gusta

Origin blog.csdn.net/weixin_45747759/article/details/122539215
Recomendado
Clasificación