Intercambio de tecnología de competencia ICDAR

un fondo

ICDAR 2021 (Conferencia internacional sobre análisis y reconocimiento de documentos) se llevará a cabo en Suiza del 5 al 10 de septiembre de 2021. La conferencia ICDAR es una de las principales conferencias internacionales en el campo del análisis y reconocimiento de documentos. Se lleva a cabo cada dos años y cubre los últimos logros académicos y las tendencias de desarrollo de aplicaciones de vanguardia en el campo del análisis y reconocimiento de documentos, atrayendo la participación de todo el mundo. los mejores equipos de I+D, expertos y académicos en este campo. La competencia de algoritmos que se lleva a cabo en la conferencia es el principal evento en el campo del reconocimiento de texto (OCR). El Departamento de Tecnología del Concesionario de Autohome ganó el segundo lugar en dos subtareas de la Competencia sobre el algoritmo de binarización de imagen de Binarización de imagen de documento de calidad de tiempo (DIB).
inserte la descripción de la imagen aquí

Figura 1 Resultados de la competencia y certificados

Introducción a la segunda competencia

El tema de la competencia DIB de ICDAR2021 es binarizar imágenes de documentos históricos y separar el texto del fondo. El índice de evaluación adopta el valor ponderado integral de PSNR, DRDM, F-Measure (FM), pseudoFMeasure (Fps) y Cohen's Kappa. La dificultad de la competencia es que el fondo de las imágenes de documentos históricos es muy complejo y hay varios factores de degradación que dificultan que los algoritmos existentes logren buenos resultados, como manchas de página que bloquean la escritura a mano, desvanecimiento de caracteres, lo que resulta en demasiado similar. al fondo, infiltración de tinta. Como resultado, el texto en la parte posterior se empapa en el frente, pero la etiqueta real debe dividirse en el fondo, así como la impresión doblada, que es de color más oscuro y puede confundirse con el texto
inserte la descripción de la imagen aquí

Figura 2 Varios ejemplos de degradación de conjuntos de datos de imágenes de documentos históricos

Tres imágenes del esquema técnico

Los métodos tradicionales de binarización se dividen principalmente en método de umbral global, método de umbral local y algunos métodos que combinan los dos. El método de umbral global utiliza directamente un umbral fijo para segmentar la imagen del documento en primer plano y fondo de texto, como el algoritmo OTSU clásico. El método de umbral local calcula el umbral local dinámico de acuerdo con la ventana de vecindad local en la imagen para clasificar el píxel como texto de primer plano o fondo. El método tradicional puede lograr una mayor precisión cuando el fondo de la imagen del documento no es muy complejo, pero cuando la imagen de fondo tiene múltiples condiciones de degradación (como manchas en la página, penetración de escritura en el reverso, iluminación desigual, etc.), el efecto es pobre.
El método combinado con el aprendizaje profundo es más robusto y puede funcionar mejor en entornos complejos. El método basado en el aprendizaje profundo considera la binarización de la imagen del documento como la tarea de segmentación de la imagen, realiza la clasificación binaria en cada píxel a través de la red neuronal convolucional y finalmente obtiene el mapa de segmentación de toda la imagen del documento, que se divide en texto de primer plano y fondo. áreas, así realizar la binarización [1]. Sin embargo, para esta competencia, la resolución de cada imagen de documento histórico es grande (a menudo 3000 píxeles en la dirección de ancho o alto), considerando la limitación de la memoria GPU, a menudo en el método de red neuronal, la entrada se recorta de toda la imagen. bloques de imagen resultantes (p. ej., 128 × 128 de tamaño) en lugar de introducir la imagen completa en la estructura de la red. Sin embargo, esta estrategia de recorte pierde la información espacial global de toda la imagen del documento, especialmente cuando hay infiltración de la escritura en el reverso.En este momento, es difícil distinguir la escritura en el reverso del texto real en primer plano, y se confundirá con el texto de primer plano, lo que resultará en una binarización. Se reduce la precisión.
Por lo tanto, diseñamos un conjunto de métodos de binarización de imágenes de documentos que combinan información global e información local, y logramos buenos resultados en la competencia.El diagrama esquemático es el siguiente:
inserte la descripción de la imagen aquí

Figura 3 Método de binarización que combina información global e información local
Nuestra arquitectura propuesta se compone de tres módulos de rama de U-Net: dos U-net locales con tamaños de imagen de entrada de 128 × 128 y 256 × 256, respectivamente, y un U-Net global con un tamaño de imagen de entrada de 512×512. Las imágenes binarizadas obtenidas por dos redes U locales primero se fusionan y luego se cruzan con las imágenes binarizadas obtenidas por la red U global para obtener la imagen binarizada final.
U-net local: use una ventana deslizante de tamaño 128 × 128 para recortar la imagen original para obtener bloques locales, y use la red neuronal convolucional U-Net [2] para obtener un mapa de probabilidad de clasificación y luego unir las imágenes de bloque en un imagen completa U-Net es un modelo de segmentación de imágenes basado en el aprendizaje profundo. Usamos la estructura de red clásica de U-Net, que consiste en un codificador y un decodificador. El codificador consta de 4 módulos repetidos, y cada módulo incluye 2 capas de 3 × 3 capas convolucionales y 1 capa de capa de agrupación 2 × 2, cada capa de capa convolucional es seguida por una capa de normalización por lotes (normalización por lotes) y una capa de función de activación (RELU) de la unidad de corrección lineal, a lo largo de la ruta de reducción de muestreo del codificador, la altura y el ancho del mapa de funciones se reduce a la mitad, mientras que el número de canales se duplica. La estructura de red del decodificador es justo la opuesta a la del codificador, con el doble de alto y ancho del mapa de características y la mitad del número de canales. La estructura U-Net tiene una conexión de salto (Skip-connection) entre el codificador y el decodificador para mejorar la precisión de la segmentación. Dado que la tarea de binarización de la imagen es asignar el valor de cada píxel de la imagen de entrada a 0 o 1, la última capa de la estructura de la red U-Net utiliza la función de activación Softmax para convertir cada bloque de imagen en el mismo tamaño Gráfico de probabilidad categórica de tamaño. Por lo general, se proporciona un umbral de activación para convertir el mapa de probabilidad de clasificación directamente en un mapa binario de 0 o 1, porque el tamaño de cada píxel del mapa de probabilidad está en el intervalo [0, 1]. Por ejemplo, el umbral de activación es 0,5, en el mapa de probabilidad, los valores mayores o iguales a 0,5 se convierten a 1, y los valores menores a 0,5 se convierten a 0. Para mejorar la precisión, se adopta un método de fusión de modelos a escala de varios niveles al extraer información local, es decir, se fusiona la información de dos bloques locales de 128×128 y 256×256.
U-net global: dado que el tamaño del bloque local es mucho más pequeño que la imagen completa original, se obtiene un mapa de probabilidad de clasificación basado en la información local. Para tener en cuenta la información del contexto espacial global y la limitación de la capacidad del modelo, un método más directo es reducir la imagen original (como el tamaño de 3000 × 3000) a un tamaño fijo de resolución inferior mediante la reducción de la resolución (p. ej., 512 × 512 dimensiones). ). Sin embargo, este método tiene dos desventajas: una es que diferentes imágenes de documentos tienen diferentes relaciones de aspecto, y la reducción uniforme a 512 × 512 causará distorsión de la relación de aspecto e introducirá errores; la otra es que al entrenar el modelo en comparación con el método de bloque de imagen reducido el número de muestras entrenables. En base a esto, usamos una ventana deslizante de tamaño fijo de 512 × 512 para recortar la imagen reducida de la imagen del documento original para obtener bloques de imagen, y los bloques de imagen en este momento pueden contener suficiente texto de fondo y de primer plano, incluido el espacial global. información de contexto.
Fusión: Primero, fusionar los resultados de dos redes locales U. Los mapas de probabilidad de clasificación obtenidos con tamaños de 128 × 128 y 256 × 256 se obtienen a través del modelo de segmentación de imágenes U-Net con diferentes tamaños de área receptiva. Se obtiene un mapa de probabilidad de clasificación con el mismo tamaño que la imagen del documento original. Dado un umbral de activación de 0,5, el mapa de probabilidad de clasificación se puede convertir en un mapa binarizado. En este momento, el mapa binarizado se obtiene mediante un modelo de segmentación de imágenes basado en la fusión de la información local. Luego se cruza con el resultado de la red U global para obtener la imagen binarizada final.
inserte la descripción de la imagen aquí

Figura 4 Resultados de binarización de la muestra
La Figura 4 muestra un ejemplo de los resultados de binarización utilizando este modelo en las imágenes de documentos impresos del conjunto de datos de la competencia. Se puede observar que cuando solo se considera información local, es decir, cuando se utilizan bloques locales para obtener una imagen binaria, es fácil predecir erróneamente el texto del área de fondo de la imagen del documento histórico como texto de primer plano. Después de combinar la información global y local, puede distinguir mejor el área de fondo y el área de texto de primer plano, y es fácil lograr mejores resultados.

cuatro resumen

En esta competencia, el Departamento de Tecnología del Concesionario de Autohome propuso un método de binarización de imágenes que combina características generales y locales, construyó una red neuronal convolucional de varios niveles para extraer características de imágenes y describió con precisión los contornos del texto a través de canales locales, combinado con el canal general para mejorar separe el fondo complejo y el primer plano del texto, y finalmente mejore en gran medida el efecto de binarización de la imagen de texto. La binarización de imágenes es un paso de preprocesamiento crucial en el procesamiento de imágenes, y el efecto de la binarización tiene un gran impacto en la precisión posterior del OCR (reconocimiento de caracteres). Los resultados de esta investigación mejoraron efectivamente el efecto de la binarización y brindaron una experiencia valiosa para escenarios comerciales posteriores, como OCR de imágenes y revisión automática de imágenes. El departamento técnico de la distribuidora tiene una gran experiencia en OCR de imágenes y revisión automática de imágenes, ha identificado más de 10 millones de tickets de diversos tipos a lo largo del año, ahorrando a la empresa la compra de servicios de reconocimiento OCR externo y protegiendo mejor a los clientes y usuarios de la empresa. seguridad de datos de la información. Además, los logros técnicos, como los robots telefónicos, los robots de diálogo de mensajería instantánea y la inspección de calidad inteligente desarrollada por el departamento técnico del distribuidor utilizando la tecnología de procesamiento de lenguaje natural, se utilizan ampliamente en productos inteligentes, actividades de marketing y productos relacionados de Cheshanghui, ahorrando muchas pistas. limpieza e invitaciones a eventos Los costos de mano de obra, como conversión de clientes potenciales, etc., también se aplican a la venta de productos comerciales para desempeñar un papel en el aumento de los ingresos de la empresa.

参考文献
[1] Jorge Calvo-Zaragoza y Antonio-Javier Gallego. Un enfoque de codificador automático selectivo para la binarización de imágenes de documentos. Reconocimiento de patrones, 86:37{47, 2019.
[2] Olaf Ronneberger, Philipp Fischer y Thomas Brox. U-net: Redes convolucionales para segmentación de imágenes biomédicas. En Conferencia internacional sobre computación de imágenes médicas e intervención asistida por computadora, páginas 234{241. Springer, 2015.

Supongo que te gusta

Origin blog.csdn.net/autohometech/article/details/126510856
Recomendado
Clasificación