Descripción general de las tareas de visión por computadora

Descripción general de las tareas de visión por computadora

Consulte los otros dos blogs
https://blog.csdn.net/weixin_44523062/article/details/104577628
https://blog.csdn.net/weixin_44523062/article/details/104535650 para
resumir la dirección de investigación de CV y ​​sus Haga su propia descripción general de la tarea. Es conveniente actualizar en el futuro de acuerdo con la dinámica de las instrucciones de investigación de CV.
Descripción sistemática de cursos y libros en el campo de CV.

  • Curso 1: concepto de enseñanza Li FeiFei CS231n 2019 enfocado en el pensamiento intuitivo
  • Curso 2: Ye Zi Computing Visual Deep Learning Practice 2017
  • Libro: Visión por computadora: un método moderno Segunda edición


Las cuatro tareas básicas de CV provienen de cs231n: clasificación, posicionamiento, detección, segmentación
Lifeifei CS231

1. Clasificación de imágenes CNN + FC + softmax

  1. Tarea: Clasificación, input-Img–> output-label
  2. Método: use el conjunto de datos etiquetado-> extraer características-> clasificadores de entrenamiento
    Lenet1998, Alexnet2012, ZFnet2013, Vggnet2014, GoogleNet2014, Resnet2015, Densenet2016
  3. Conjunto de datos: dígitos manuscritos Mnist, CIFAR10, Imagenet1000
    MNIST 60k imágenes de entrenamiento, 10k imágenes de prueba, 10 categorías, tamaño de imagen 1 × 28 × 28.
    CIFAR-10 50k imágenes de entrenamiento, 10k imágenes de prueba, 10 categorías, tamaño de imagen 3 × 32 × 32.
    CIFAR-100 50k imágenes de entrenamiento, 10k imágenes de prueba, 100 categorías, tamaño de imagen 3 × 32 × 32.
    ImageNet 1.2M imágenes de entrenamiento, 50k imágenes de verificación, 1k categorías. En 2017 y antes, la competencia ILSVRC basada en el conjunto de datos mageNet se llevará a cabo cada año, lo que equivale a los Juegos Olímpicos de la industria de la visión por computadora.
  4. Aplicación: fundamento de la comprensión de la imagen CV, preparación para el reconocimiento de objetivos y segmentación de objetivos
  5. Evaluación: Precisión: clasificación right-num / all-num
  6. Tipos de clasificadores extendidos: discriminante, generativo (fuente cv un método moderno) - consulte https://blog.csdn.net/u010358304/article/details/79748153
    Inserte la descripción de la imagen aquí
    desde la perspectiva de la distribución de probabilidad, para un grupo de datos de muestra , Cada uno tiene una característica Xi correspondiente a la etiqueta de clasificación yi.
  • Modelo de generación: utilizando estadísticas y Bayes como base teórica. Aprenda a obtener la distribución de probabilidad conjunta P (x, y), es decir, la probabilidad de que la característica xy la etiqueta y ocurran conjuntamente, y luego encuentre la distribución de probabilidad condicional. Capaz de aprender el mecanismo de generación de datos.
    • 1. Naive Bayes 2. Modelo gaussiano mixto 3. Markov oculto
  • Modelo discriminante: aprenda a obtener la distribución de probabilidad condicional P (y | x), es decir, la probabilidad de que la etiqueta y aparezca cuando aparezca la característica x.
    • 1. Perceptrón 2. Método vecino más cercano 3. Árbol de decisión 4. Regresión logística 5. Modelo de entropía máxima 6. SVM 7. Impulso (AdaBoost) 8. Campo aleatorio condicional (CRF) 9. CNN
  1. Código: pytorch viene con Resnet, Vggnet y el conjunto de datos de torchvision: Minist, CIFAR, que son las columnas principales que se aplican a las tareas de comprensión de imágenes más profundas, y todos usan el ajuste fino del modelo previamente entrenado

2. Detección de objetivos (posicionamiento + clasificación)

La tarea de localización es un cuadro delimitador que genera objetivos específicos: como la detección de rostros y la detección de peatones. Es parte de la detección de objetivos.
Tareas de detección de objetivos: 1 posicionamiento + 2 categorías + 3. Confianza. El
método tradicional es la búsqueda manual de características.
Dos tipos de métodos de aprendizaje profundo: 1 basado en regiones candidatas para extraer características, y luego regresión de límite; 2 una etapa basada en la detección de posicionamiento de regresión

2.1, localización de objetos (localización de objetos)

  1. Sobre la base de la clasificación de la imagen, también queremos saber dónde está el objetivo de la imagen, generalmente en forma de cuadro delimitador. La idea básica es el aprendizaje de tareas múltiples: la red tiene dos ramas de salida. Una rama se usa para la clasificación de imágenes, es decir, conexión completa + softmax para determinar la categoría objetivo. La diferencia con la clasificación de imágenes pura es que hay otra categoría de "fondo". La otra rama se usa para juzgar la posición de destino, es decir, para completar la tarea de regresión y generar cuatro números para marcar la posición del cuadro delimitador (como las coordenadas horizontales y verticales del punto central y la longitud y el ancho del cuadro delimitador). Antes de usar

  2. La idea del posicionamiento de la postura del cuerpo humano / posicionamiento facial, el posicionamiento objetivo también se puede utilizar para el posicionamiento de la postura del cuerpo humano o el posicionamiento facial. Ambos requieren que regresemos a una serie de puntos clave de las articulaciones o rostros humanos.

  3. Posicionamiento débilmente supervisado Dado que el posicionamiento objetivo es una tarea relativamente simple, los puntos críticos de investigación recientes son posicionamiento objetivo bajo la condición de solo información etiquetada. La idea básica es encontrar algunas áreas destacadas de alta respuesta a partir de los resultados de convolución, y pensar que esta área corresponde al objetivo en la imagen.

2.2, detección de objetivos

  1. Tarea: Identifique la ubicación de destino de la imagen panorámica Cuadro delimitador, etiqueta de categoría y confianza. El marco de detección universal tiene un rcnn más rápido que puede usarse para detectar un solo objetivo específico y múltiples objetivos. De acuerdo con los datos de entrenamiento de la tarea, se pueden entrenar varios modelos de detección: como caras, peatones, máscaras

  2. Método: Método
    tradicional:
    1 Selección de área (ventana deslizante): el desplazamiento de la ventana deslizante no está dirigido (escala, alta complejidad temporal, redundancia de ventana)
    2 Extracción de características (SIFT, HOG, etc.)
    Clasificador de inestabilidad de características manual 3 (SVM, Adaboost, etc.) + NMS y NMS suave
    características de cara de alta precisión a altas velocidades de recuperación + clasificadores en cascada, características peatonales HOG + clasificadores SVM, variabilidad DPM modelo de piezas detección de objetos
    métodos de aprendizaje profundo: RCNN, yolo, ssd, fcn Fusión multifunción
    1 Basado en regiones candidatas dos etapas basadas en la propuesta de región
    RCNN, Fast-RCNN, Faster-RCNN (red de región candidata RPN),
    regiones candidatas R-FCN (fusionando ventanas deslizantes similares): menos ventanas, mayor recuperación ( (Use la textura, el borde, el color, etc. en la imagen)
    (1) Use la Búsqueda selectiva para extraer Propuestas, y luego use CNN y otras técnicas de reconocimiento para la clasificación.
    (2) Use la biblioteca de reconocimiento para el entrenamiento previo y luego use la biblioteca de detección para ajustar los parámetros.
    (3) SVM se usa para reemplazar el último Softmax en la red CNN, y la salida vectorial de 4096 dimensiones de CNN se usa para la regresión de Bounding Box.
    (4) Los primeros dos pasos del proceso (extracción de región candidata + extracción de características) no están relacionados con la categoría a detectar, y pueden compartirse entre diferentes categorías; al detectar varias categorías al mismo tiempo, solo los dos últimos pasos (discriminación + refinamiento) deben duplicarse Todas son operaciones lineales simples, muy rápidas
    2 Basado en la regresión de una etapa
    Solo se ve una vez (Yolo-v1-3)
    Single Shot multiBox Detector (SSD)
    FPN: enfoque, fusión de funciones múltiples, desconvolución de mapas de funciones profundas y fusión con funciones poco
    profundas Interpretación de RetinaNet https://blog.csdn.net/JNingWei/article/details/80038594

  3. El conjunto de datos Imagenet1000, PASCAL VOC20 categoría 2007 y MS COCO80 categoría
    PASCAL VOC contiene 20 categorías. Por lo general, la unión de entrenamiento de VOC07 y VOC12 se usa como entrenamiento, y el conjunto de prueba de VOC07 se usa como prueba.
    COCO es más difícil que VOC. COCO contiene 80k imágenes de entrenamiento, 40k imágenes de verificación e 20k imágenes de prueba no publicadas (test-dev), 80 categorías, con un promedio de 7.2 objetivos por imagen. Por lo general, la unión de 80k de entrenamiento y 35k de imágenes de verificación se usa para el entrenamiento, las 5k imágenes restantes se usan para la verificación y las 20k imágenes de prueba se usan para pruebas en línea.

  4. Aplicación: seguimiento, reidentificación

  5. Método de evaluación: mAP, generalmente se detecta la relación de combinación cruzada IoU> 0.5-0.7, y el índice de evaluación promedio F1 score = 2PR / R + P
    Inserte la descripción de la imagen aquí
    mAP (precisión promedio promedio) se usa comúnmente en la detección de objetivos. El método de cálculo es el siguiente. Cuando la relación de intersección del cuadro delimitador predicho y el cuadro delimitador real es mayor que un cierto umbral (generalmente 0.5), la predicción se considera correcta. Para cada categoría, dibujamos su curva de recuperación de precisión, la precisión promedio es el área debajo de la curva, y el programa divide el cálculo de acuerdo con el número de objetivos detectados por umbral . Después de eso, se promedia la precisión promedio de todas las categorías para obtener mAP, que es [0, 100%]. El área de la intersección del cuadro delimitador y el cuadro delimitador verdadero predicho por el algoritmo de
    intersección sobre unión (IoU) dividido por el área de la unión de estos dos cuadros delimitadores es [0, 1]. La relación de intersección mide la cercanía del cuadro delimitador predicho por el algoritmo y el cuadro delimitador real. Cuanto mayor sea la relación de intersección, mayor será el grado de superposición de los dos cuadros delimitadores.

  6. Dificultades o trucos Un problema que puede surgir con la detección del objetivo de
    supresión no máxima (NMS) es que el modelo realiza múltiples predicciones para el mismo objetivo, lo que resulta en múltiples cuadros delimitadores. NMS tiene como objetivo mantener el resultado de la predicción más cerca del cuadro delimitador verdadero y suprimir otros resultados de predicción. El enfoque de NMS es que, primero, para cada categoría, NMS primero cuenta la probabilidad de que cada salida de predicción pertenezca a esa categoría y clasifica los resultados de predicción de acuerdo con la probabilidad de mayor a menor. En segundo lugar, NMS cree que el resultado de la predicción con poca probabilidad no encuentra el objetivo, por lo que lo suprime. Luego, el NMS encuentra el resultado de predicción con la mayor probabilidad entre los resultados de predicción restantes, lo genera y suprime otros cuadros delimitadores que tienen una gran superposición con el cuadro delimitador (como IoU mayor que 0.3). Repita el paso anterior hasta que se procesen todos los resultados de predicción. Otro problema de la detección de objetivos de
    minería en línea de ejemplo (OHEM) es el desequilibrio de categorías. La mayoría de las áreas de la imagen no contienen objetivos, mientras que solo un área pequeña contiene objetivos. Además, la dificultad de detectar diferentes objetivos varía mucho: la mayoría de los objetivos se detectan fácilmente, mientras que un pequeño número de objetivos es muy difícil. OHEM y Boosting tienen una idea similar: clasifican todas las regiones candidatas según el valor de pérdida y seleccionan una parte de la región candidata con el valor de pérdida más alto para la optimización, de modo que la red preste más atención a los objetivos más difíciles en la imagen. Además, para evitar seleccionar regiones candidatas que se superponen mucho entre sí, OHEM realiza NMS en las regiones candidatas de acuerdo con el valor de pérdida.
    En la regresión logarítmica, la regresión es mucho más difícil que la optimización de la clasificación. \ ell_2 La pérdida es más sensible a los valores atípicos: debido al cuadrado, los valores atípicos tendrán un gran valor de pérdida y, al mismo tiempo, habrá un gradiente grande, lo que facilitará la aparición de explosiones de gradiente durante el entrenamiento. El gradiente de pérdida \ ell_1 es discontinuo. En el espacio logarítmico, dado que el rango dinámico del valor es mucho más pequeño, el entrenamiento de regresión también es mucho más fácil. Además, algunas personas usan la pérdida suave \ ell_1 para la optimización. La normalización de los objetivos de retorno por adelantado también ayudará al entrenamiento.
    Enlace original: https://blog.csdn.net/Fire_to_cheat_/article/details/88551011

  7. Código: Yolo, más rápido R-CNN se ejecuta en Imagenet o coco

3. Segmentación objetivo (semántica, ejemplos)

  1. Tarea: segmentación a nivel de píxel, máscara de área de contorno. La segmentación semántica es una distinción entre clases, y la segmentación de instancias también necesita distinguir
    la segmentación semántica Semántica semántica: entienda semánticamente el papel de cada píxel (por ejemplo, identifique si es un automóvil, motocicleta u otra categoría) en el mundo real El significado del concepto representado por las cosas, los objetos con el mismo significado conceptual se dividen en
    instancias : idea básica detección de objetivos + segmentación semántica. Primero use el método de detección de objetivo para enmarcar diferentes instancias en la imagen, y luego use el método de segmentación semántica para marcar cada píxel en diferentes cuadros delimitadores.
    Además de la segmentación semántica, la segmentación de instancias clasifica diferentes tipos de instancias, como marcar 5 autos con 5 colores diferentes. La tarea de clasificación es generalmente identificar lo que una imagen contiene un solo objeto, pero al segmentar instancias, necesitamos realizar tareas más complejas. Veremos múltiples objetos superpuestos y escenas complejas con diferentes fondos. ¡No solo necesitamos clasificar estos diferentes objetos, sino también determinar los límites, las diferencias y las relaciones entre los objetos!
  2. Método:
    segmentación semántica
    Red neuronal totalmente convolucional FCN Red en forma de U
    Convoluciones dilatadas, DeepLab y RefineNet, Cascadas2015
    Segmentación de fuerza: Máscara R-CNN
  3. Conjunto de datos: MSCOCO, VOC
    PASCAL VOC 2012 1.5k imágenes de capacitación, 1.5k imágenes de verificación, 20 categorías (incluido el fondo).
    COCO tiene 83k imágenes de entrenamiento, 41k imágenes de verificación, 80k imágenes de prueba, 80 categorías
  4. Aplicación: segmentación de imágenes médicas
  5. Método de evaluación: IoU, mAP
    Inserte la descripción de la imagen aquí

  6. Las cuatro tareas de distinguir clasificación, posicionamiento, reconocimiento de objetivos más general, segmentación semántica y segmentación de instancias requieren una comprensión más profunda de la imagen. Dada una imagen de entrada, la tarea de clasificación de imágenes tiene como objetivo determinar la categoría a la que pertenece la imagen. El posicionamiento se basa en la clasificación de la imagen y además determina dónde se encuentra el objetivo en la imagen, generalmente en forma de cuadro delimitador. En el posicionamiento del objetivo, generalmente solo hay uno o un número fijo de objetivos, y la detección de objetivos es más general, y los tipos y el número de objetivos que aparecen en la imagen son inciertos. La segmentación semántica es una tarea más avanzada de detección de objetivos. La detección de objetivos solo necesita enmarcar el cuadro delimitador de cada objetivo. La segmentación semántica necesita determinar aún más qué píxeles de la imagen pertenecen a qué objetivo. Sin embargo, la segmentación semántica no distingue entre diferentes instancias que pertenecen a la misma categoría. Por ejemplo, cuando hay varios gatos en la imagen, la segmentación semántica predecirá todos los píxeles de los dos gatos como una categoría de "gatos". A diferencia de esto, la segmentación de instancias necesita distinguir qué píxeles pertenecen al primer gato y qué píxeles pertenecen al segundo gato. Además, el seguimiento de objetivos generalmente se usa para datos de video y tiene una relación estrecha con la detección de objetivos, mientras se usa la relación de sincronización entre cuadros.
    Inserte la descripción de la imagen aquí
  7. Equipo de investigación: Foolwood misma persona WangQiang
    SiamMask https://zhuanlan.zhihu.com/p/58154634
  8. Código: MaskRCNN

4. Seguimiento de objetivos (video)

  1. Tarea: Basado en el MTSC panorámico, MTMC, cámara única de múltiples objetivos, STSC de múltiples cámaras y múltiples objetivos
    , dada una imagen peatonal en rodajas (imagen de sonda), de un video panorámico (pista panorámica, solo una pequeña parte de la vista es este peatón) Encuentra la ubicación de la sonda. Este video panorámico es un cuadro continuo tomado por una sola cámara.

  2. Método: Algoritmo de generación Algoritmo discriminante El algoritmo de
    generación utiliza un modelo generativo para describir características aparentes y minimizar el error de reconstrucción para buscar objetivos, como el algoritmo de análisis de componentes principales (PCA); el
    algoritmo discriminante se usa para distinguir objetos del fondo y su rendimiento es más robusto. Y gradualmente se convierta en el principal medio para rastrear objetos (los algoritmos de discriminación también se llaman Rastreo por detección, el aprendizaje profundo también pertenece a esta categoría)
    métodos tradicionales:
    1 método de flujo óptico generativo, significa que si solo se enfoca en el objetivo, ignore el fondo
    2 método de filtrado relevante CSK Existen
    métodos de predicción y aceleración del aprendizaje profundo:
    C-COT, ECO, MDnet,
    modelos de red profunda siamFC : codificador automático apilado (SAE) y red neuronal convolucional (CNN).

  3. Conjuntos de datos
    OTB50, OTB100, VOT2016
    cityflow El primer conjunto de datos de seguimiento de automóviles con cámara cruzada, o REID del vehículo
    https://www.jiqizhixin.com/articles/2019-03-26-13 incluyendo el análisis de algoritmo de seguimiento existente SORT Deep

  4. Aplicación: monitoreo inteligente, seguridad urbana
    Descripción general https://www.cnblogs.com/liuyihai/p/8338369.html

  5. Método de evaluación
    en tiempo real, precisión (es necesario agregar, cómo definir el juego de votación en el código)

  6. Equipo de investigación: Universidad Kuangshi Wangmengmeng Zhejiang

  7. Código:
    autor de tonto-Siammask, resumen del rastreador https://github.com/foolwood/benchmark_results
    como
    yolo v3 + tracking https://blog.csdn.net/weixin_42035807/article/details/89496378
    Artículo de KCF http: // www. robots.ox.ac.uk/~joao/publications/henriques_tpami2015.pdf
    KCF https://github.com/HenryZhangJianhe/KCF
    Algoritmo

  8. Código: KCF (filtro nuclear), filtro de correlación

5. Reidentificación del objetivo (ReID: persona, automóvil)

  1. Tarea: Subtarea de recuperación de imagen, la sonda dada busca la misma imagen de cámara cruzada en la galería no se basa en el panorama, el conjunto de datos es la imagen que se ha detectado y contiene el objetivo
  2. Método:
    aprendizaje de representación, clasificación de entropía cruzada, pérdida de contraste, pérdida de atributos,
    aprendizaje métrico: pérdida triple,
    coincidencia de alineación local: PCB
    basado en la generación de GAN

  3. Coche del conjunto de datos : cityflow2019, VeRi-776 de Beijing Post, VehicleID de la Universidad de Pekín PKU-VD de la Universidad de Pekín
    Peatón: Market1501, Duke

  4. Seguimiento de aplicaciones , agrupamiento
  5. Método de evaluación: mAP
    responde la diferencia entre la reidentificación del objetivo y el seguimiento del objetivo
    https://www.zhihu.com/question/283460186/answer/869165399
    responde la diferencia entre el seguimiento de peatones y la reidentificación Luo Hao
    https://www.zhihu.com/question/ 68584669 La diferencia entre REID y tracking
    7. Equipo de investigación: Luo Hao, Zheng Liang

Seis, descripción de la imagen RNN + atención

  1. Tarea: Imagen-> Texto. Imágenes de entrenamiento con descripción de texto, entrada Img–> salida describe palabra

  2. Método: codificación y decodificación, LSTM en RNN, mecanismo de atención

  3. Conjunto de datos:

  4. Aplicación: guía ciega

  5. Método de evaluación: método de evaluación para el texto traducido

  6. Dificultades

  7. Falta de datos

Siete, generación de imágenes: GAN

  1. Tarea
  2. Método
  3. Conjunto de datos
  4. Solicitud
  5. Criterios de evaluación.
  6. Dificultades

Ocho, perfeccionar y transferir el aprendizaje

九 、 Cross Domain adaptativo

1. Para segmentación
2. Para reidentificación
3. Para seguimiento

10. Aprendizaje no supervisado

Once conjuntos de datos de uso común

URL de intercalación de conjuntos de datos comunes https://www.cnblogs.com/liuyihai/p/8338020.html

Doce tareas de visión por computadora de atributos geométricos

Los 8 elementos anteriores son todas tareas de CV con reconocimiento semántico. Las tareas basadas en atributos geométricos se dividen en modelado 3D, realidad aumentada y visión binocular.
Inserte la descripción de la imagen aquí

13. Síntesis de aplicación

  • Reconocimiento de rostros: Snapchat y Facebook usan algoritmos de detección de rostros para reconocer rostros.
  • Recuperación de imágenes: Google Images utiliza consultas basadas en contenido para buscar imágenes relacionadas, y el algoritmo analiza el contenido en las imágenes de consulta y devuelve los resultados en función del mejor contenido coincidente.
  • Juego y control: el producto de aplicación de juegos más exitoso que utiliza visión estéreo es: Microsoft Kinect.
  • Vigilancia: las cámaras de vigilancia utilizadas para controlar el comportamiento sospechoso se encuentran dispersas en los principales lugares públicos.
  • Tecnología biométrica: la coincidencia de huellas dactilares, iris y cara siguen siendo algunos métodos comunes en el campo de la biometría.
  • Coches inteligentes: la visión por computadora sigue siendo la principal fuente de información para detectar señales de tráfico, luces y otras características visuales.
  • Yun Na Wu Gan Pago Minorista http://www.yunatop.com/

14. Referencia

Explicación detallada de las cinco tecnologías principales de visión por computadora: clasificación de imágenes, detección de objetos, seguimiento de objetivos, segmentación semántica y segmentación de instancias

Visión general de la
computadora Curso Lifeifei Zihao explicado

Quince, la siguiente es la clasificación de papel excelente CVPR2019

http://bbs.cvmart.net/topics/302/cvpr2019paper
Inserte la descripción de la imagen aquí

Publicado 63 artículos originales · elogiado 7 · vistas 3396

Supongo que te gusta

Origin blog.csdn.net/weixin_44523062/article/details/104468840
Recomendado
Clasificación