『Detección_OCR』 CRAFT


Nombre del artículo: Conocimiento de la región de caracteres para la detección de texto,
código fuente abierto: https://github.com/clovaai/CRAFT-pytorch

1. CRAFT ideas

  1. Segmentación de imágenes de pensamiento utilizando u-netla estructura y luego reduciendo el muestreo primero

    El método de segmentación es algo diferente de la segmentación de imágenes. CRAFT no realiza una clasificación a nivel de píxel de la imagen completa, pero realiza una regresión. Tiene dos ramas, una es la probabilidad de que el objetivo sea el centro del personaje (la probabilidad puede no se utilizará aquí) Es muy preciso, tal vez la distancia desde el centro del carácter sea mejor), la otra es la relación de conexión entre los personajes, y luego, después de un paso de posprocesamiento, se obtiene el cuadro delimitador del texto .

  2. Para la segmentación sin nivel de píxel, un personaje se considera un objeto de destino de detección en lugar de una palabra (todas las palabras están compuestas de caracteres), es decir, el cuadro de texto no se considera un destino. Esto es algo similar a ctpn, la primera detección de bbox muy pequeño, y luego usar la relación entre bbox be concat. La ventaja es que solo necesita enfocarse en el nivel de contenido del carácter sin la necesidad de enfocarse en toda la instancia de texto utilizar pequeños campos receptivos puede predecir texto largo . El algoritmo de detección ctpn también es mejor para la detección de texto largo. El algoritmo de detección de este correspondiente está limitado por el campo receptivo, por lo que los dos extremos del texto largo a menudo son inexactos.

    El método consiste en ubicar con precisión cada carácter y luego conectar los caracteres detectados en un texto para lograr el propósito de la detección. Dado que este método solo necesita prestar atención a los caracteres y la distancia entre los caracteres, y no necesita prestar atención a toda la línea de texto, no necesita un gran campo receptivo y es adecuado para curvas, deformadas o texto extremadamente largo. Debido a la necesidad de detectar con precisión cada carácter, el efecto de detección de caracteres pegajosos (como bengalí y árabe) no es muy bueno.

  3. Para la mayoría de los conjuntos de datos públicos son anotaciones a nivel de cuadro de texto, en lugar de anotaciones a nivel de personaje, este documento propone una idea de aprendizaje débilmente supervisada, primero usando muestras sintéticas para el preentrenamiento y luego usando el modelo de preentrenamiento para detectar el conjunto de datos reales, obtenga el resultado de la predicción y obtenga el mapa de calor gaussiano como la etiqueta a nivel de carácter del conjunto de datos reales después del procesamiento.

2. Estructura de la red CRAFT

2.1 columna vertebral

VGG16-BN, La parte de muestreo del diseño de una UpConv Blockestructura que utiliza la VGG-16reducción de resolución, un total de 5veces la reducción de resolución, por lo que la etapa de predicción de la imagen de entrada preprocesada, la imagen se ingresará en la longitud y el ancho de relleno de los valores de longitud y ancho de los 32múltiplos más recientes . Por ejemplo, si la imagen de entrada es 500x400, la imagen se rellenará a 512x416, lo que puede evitar eficazmente la desviación de píxeles en la segmentación. Uso de Unetla idea de las características de las concatoperaciones de submuestreo y submuestreo de la figura adicional , el 1/2diagrama de secuencia de tamaño de salida final , dos canales que comprenden score map:

  1. Puntuación de la región: mapa de calor gaussiano a nivel de carácter, que indica la probabilidad de que el punto sea el centro del carácter (la probabilidad de la región central de un solo carácter)
  2. Puntuación de afinidad: mapa de calor gaussiano de la conexión entre caracteres, que puede considerarse como la probabilidad de que el punto sea el centro entre dos caracteres, la probabilidad central del espacio entre caracteres adyacentes (la probabilidad del centro del área de caracteres adyacentes)

Inserte la descripción de la imagen aquí

(Escribiré más tarde...)

Supongo que te gusta

Origin blog.csdn.net/libo1004/article/details/111673503
Recomendado
Clasificación