Capítulo XVIII - reconocimiento de caracteres OCR imagen Photo profundidad del ojo _ Andrew Ng de aprendizaje automático campos de entrenamiento de empleo

directorio

En primer lugar, el problema Descripción

En segundo lugar, la implementación

2,1 detección texto (detección de texto)

2.2 Carácter segmentación (Personaje segmentación)

2.3 Reconocimiento de Caracteres (reconocimiento de caracteres)

En tercer lugar, la experiencia de ingeniería

adquisición de datos 3.1

3.2 Límite Superior

IV Resumen


En primer lugar, el problema Descripción

reconocimiento óptico de caracteres es decir OCR (Optical Character Recognition), se refiere a los materiales de papel por el instrumento óptico en forma de un extracto de texto de matriz de puntos en blanco y negro almacenado en el ordenador y, a continuación procesada por el software de reconocimiento de caracteres y convierten a caracteres de ordenador formato de proceso.

Figura reconocimiento de texto de la imagen 18-1

Y reconocimiento de caracteres de la imagen (OCR foto) , se refiere a un procedimiento para identificar la finalización de los caracteres OCR de una imagen determinada. En comparación con el reconocimiento de documentos en general, el texto en la posición de la imagen, el tamaño y el grado de luz y sombra son muy diferentes, por lo difícil de manejar.

En segundo lugar, la implementación

Cuando nos enfrentamos a un problema de ingeniería, la forma de descomponer el problema, diseñar una razonable de línea (pipline) va a determinar la eficacia y la eficiencia de la realización de todo el proyecto.

Imagen Problema de reconocimiento de caracteres por lo general se puede dividir en tres etapas: es decir, la solución de detección de texto, la segmentación de caracteres y reconocimiento de caracteres. En algunos sistemas, habrá una corrección ortográfica paso, pero no se discuten aquí.

Figura 18-2 foto línea de reconocimiento de caracteres

En la práctica de la ingeniería específica, cada paso puede estar dispuesto, respectivamente, en un equipo para completo. A continuación se discuten estos tres pasos.

2,1 detección texto (detección de texto)

detección de texto es la imagen del carácter de la región han identificado todos. Tenga en cuenta que en este momento tiene solamente una región de texto identificado.

La aplicación de esta ventana deslizante (Sliding Windows) técnica es un método para la detección de objetos de visión por ordenador de un objeto, por cierto, la red de ordenadores y sistemas operativos tienen el concepto del mismo nombre, una distinción.

La idea central es: ① conjunto de entrenamiento con una imagen de un tamaño fijo para entrenar a un clasificador para juzgar si existe la necesidad de identificar el objeto de imagen Tamaño fijo. ② diferentes tamaños de las ventanas en las necesidades de imagen para ser reconocidos en la búsqueda global, ③ buscará por la ventana de manera uniforme ajustado a un tamaño especificado, a continuación, por el clasificador para determinar si hay un objeto, y hay objetos en el área de obra marcar.

Clasificador se puede aprender antes de la regresión logística, redes neuronales, el algoritmo SVM como la construcción, debe ahora más popular es la red neuronal de convolución CNN. El entrenamiento de los datos que se marcaron ¿Hay una imagen de los personajes.

detección texto figura 18-3

imagen OCR en cuestión, que puede efectuar la inferior izquierda como se muestra en la Figura 18-3, en el que el nivel de brillo de cada píxel, es decir, su probabilidad de un personaje puede contener shows más luz que la mayor es la posibilidad. En una aplicación específica también necesita usar operador ampliada (Expansión operador) , la posibilidad de una alta probabilidad de píxeles alrededor del píxel se expanda, de tal modo que algunas áreas de China Unicom; también requiere cierto grado de poda, por ejemplo, retire o desconecte algunos de la imposible forma del bloque de conexión, y en última instancia a lograr los resultados deseados.

2.2 Carácter segmentación (Personaje segmentación)

segmentación de caracteres es la imagen habría sido por una sola palabra tallado fuera de lugar como una unidad.

Implementación aquí se sigue utilizando en la ventana deslizante, sólo a causa de los trabajos anteriores, aquí sólo tiene que haber una sola dimensión ventana deslizante que puede deslizarse alrededor. En consecuencia, el clasificador de datos de entrenamiento es también una marca de la imagen, pero el objetivo es identificar los clasificadores necesarias para desactivar la división de la imagen ubicación, marcando el cuadro es si la necesidad de seguir dividiendo. Detallada La figura 18-3.

Figura 18-4 literal segmentación de caracteres

 

2.3 Reconocimiento de Caracteres (reconocimiento de caracteres)

El reconocimiento de caracteres es el contenido de la imagen se reconoce como un carácter específico. Este es un simple problema de múltiples clasificación, sólo hay que formar a una clasificación mucho más precisa del clasificador puede ser.

La implementación específica de la línea de la figura 18-5

A través de los módulos anteriores, etc. puede haber un sistema completo de imagen OCR.

En tercer lugar, la experiencia de ingeniería

adquisición de datos 3.1

A menudo, deben tenerse en cuenta en el proyecto actual, la forma de obtener suficientes datos? Discutido antes, si encuentra un modelo de bajo varianza a través de la curva de aprendizaje, obtenemos más datos sobre el modelo más favorable.

En general, el método de adquisición de datos se puede dividir en tres categorías:

1. recogió y se etiquetan manualmente. Es decir, para recoger sus propios datos son reales, y pegar manualmente marca. En cuestionario de uso general, visitando y haciendo experimentos y otras formas. En el problema de OCR, se puede ir a una variedad de fuentes descarga sitio diferente de la fuente, y después de sacar algunas fotos, texto al azar incrustado en imágenes como una nueva muestra.

2. Los datos sintéticos. Esa puesta a punto de los datos existentes, los datos finales obtenidos con la etiqueta, pero el contenido se ha transformado. Tales métodos se utilizan a menudo para mejorar los datos en el procesamiento de imágenes, como se muestra en la Fig. 18-6. En la presente realización, una imagen existente puede ser cambiado de color, el brillo, etc. construido nuevos datos.

mejora de los datos de imagen 18-6

3. crowdsourcing. Simplemente es que gastar dinero en algunas empresas dedicadas a la recogida de datos de marcadores y para comprar algunos de los datos.

3.2 Límite Superior

Este capítulo destaca el concepto de la tubería, en muchas prácticas de ingeniería, la tarea se divide en varios módulos, y se lograron. Por lo cual un módulo de los más dignos de atención y esfuerzo para mejorar el costo es un tema muy importante. Aquí hay dos criterios medibles, fueron medidos desde el rendimiento y precisión.

Amdahl Teorema (ley de Amdahl) es la resumió después de calcular pionera Gene Amdahl efecto de mejorar el rendimiento general de una parte interpuesto por el sistema informático de observación. La idea central se puede formular como:

T_ {nueva} = (1- \ alpha) T_ {old} + \ frac {\ alpha T_ {antigua}} {k} = T_ {old} [(1- \ alpha) + \ frac {\ alpha} {k }]                  (Official 18.1)

S = \ frac {T_ {antigua}} {T_ {nueva}} = \ frac {1} {(1- \ alpha) + \ frac {\ alpha} {k}}                         (Official 18.2)

Donde α se refiere a una proporción del módulo de tiempo de ejecución en todo el tiempo de funcionamiento del sistema, la relación de la k para el módulo para mejorar el rendimiento. Supongamos que un módulo en la proporción global de 60% del tiempo de funcionamiento, la forma de que era aumento de 3 veces en el rendimiento, en la fórmula para calcular el S = 1,67, es decir, el rendimiento final de 1,67 veces el original.

Límite superior (Análisis de techo) es una medida de la importancia de una mayor precisión, lo que supone un módulo y antes de que los módulos son 100% correcta, el rendimiento global del sistema tanto?

Límite superior 18-7 foto

Como se muestra, la corriente se supone que la precisión global del sistema fue del 72%.

Si actualmente tiene un módulo de detección correcta de texto 100% (artificial alcanzar), la tasa global exactitud aumentado en un 17%.

Si tiene más de un módulo de segmentación de caracteres precisa 100% (artificial de lograr), el primero será en base a la tasa de precisión global aumentó en un 1%.

Si más tiene un 100% de los módulos de caracteres precisos (artificial de lograr), el primero será en base a la tasa de precisión global aumentó en un 10%.

De los resultados anteriores, este caso debería centrarse en mejorar el módulo de detección de texto.

IV Resumen

Hay capítulo específico.

  • En él se describe el sistema de reconocimiento de texto y la imagen introdujo un plan de implementación.
  • Se introdujo el concepto de tubería, y la introducción de métodos analíticos ambas propiedades.

(Nota: La mayor parte de este capítulo imágenes de cursos de aprendizaje automático Andrew Ng capítulo XVIII, la invasión eliminado.)

Publicado 18 artículos originales · ganado elogios 2 · Vistas 708

Supongo que te gusta

Origin blog.csdn.net/weixin_41542958/article/details/104876253
Recomendado
Clasificación