Andrew Ng máquina de aprendizaje notas (58) - Máquina identificación con foto (Ejemplo de aplicación)

Capítulo XVIII ejemplos de aplicación: El carácter de reconocimiento de imágenes (Ejemplo de aplicación: Fotografía OCR)

1, una descripción diagrama de flujo del problema y

Se hace lo que la aplicación de reconocimiento de caracteres de imagen para identificar el texto de una imagen determinada. Esto es mucho más complejo que el texto que identifica a partir de un documento escaneado.
Aquí Insertar imagen Descripción
Para llevar a cabo este trabajo, es necesario seguir los siguientes pasos:
1. Texto de detección (detección texto) - El texto en las fotografías con otros objetos del entorno separado del
2. Carácter de segmentación (segmentación de caracteres) - El texto se divide en una un solo carácter
3. clasificación de caracteres (clasificación de caracteres) - para determinar lo que cada personaje es un diagrama de flujo se puede utilizar para expresar la tarea problema, cada tarea se puede hacer un equipo independiente encargado de resolver:
Aquí Insertar imagen Descripción

2, la ventana deslizante

Ventana corredera es a ser extraído de una imagen se utiliza en la técnica. Si tenemos que identificar a un peatón en la imagen, lo primero que debe hacer es utilizar una serie de imágenes de tamaño fijo para entrenar un modelo puede identificar con precisión los peatones. A continuación, el tamaño de la imagen cuando se utiliza el modelo para identificar los peatones antes del entrenamiento utiliza para recortar la imagen que queremos reconocimiento de peatones, y luego cortar las rodajas de llegar al modelo, por lo que el modelo es determinar si un peatón, y luego deslice el recorte de la imagen regional re-corte, cortar un trozo del nuevo modelo es también de ser juzgados, y así sucesivamente hasta que todo el cuadro terminado la prueba.
Una vez hecho esto, hemos reducido región de recorte, y luego una nueva cosecha el tamaño de la imagen de la rebanada de nueva corte redujo al tamaño del modelo adoptado, el modelo que se determine, por lo que el ciclo.
Aquí Insertar imagen Descripción
Técnica de ventana deslizante también se utiliza para el reconocimiento de caracteres, el primer modelo de formación puede distinguir carácter y no de caracteres y, a continuación, utilizando una técnica de reconocimiento de caracteres de ventana deslizante, el reconocimiento de caracteres, una vez terminado, vamos a identificar algunas áreas que resultan de expansión, entonces el solapamiento el área combinada. Entonces la relación de aspecto como un filtro para filtrar los regiones de mayor anchura que altura (la longitud de una palabra que es generalmente mayor que la altura). Bajo La zona verde es el resultado de estos pasos son considerados como la región después del texto, mientras que las zonas rojas son ignorados.
Aquí Insertar imagen Descripción
Lo anterior es la etapa de detección de texto. El siguiente paso es la formación de un modelo para completar la tarea de dividir el texto en un personaje, conjunto de entrenamiento necesidad de la imagen entre la imagen y el carácter individual de los dos personajes conectados a entrenar el modelo.
Aquí Insertar imagen Descripción
Después de modelo de formación, seguimos utilizando una técnica de ventana deslizante para reconocimiento de caracteres.

3, el acceso a grandes cantidades de datos y los datos manuales

Si nuestro modelo es una variación baja, más datos utilizados para entrenar el modelo es capaz de tener un mejor efecto. es decir, ¿cómo obtener los datos, los datos no siempre se puede obtener directamente la cuestión, es posible que tenga que crear manualmente algunos datos.
Con nuestra aplicación de reconocimiento de caracteres, por ejemplo, podemos descargar la fuente de una variedad de fuentes, y luego utilizar estos fuente diferente con una variedad diferente de la imagen de fondo al azar para crear algunos ejemplos de entrenamiento, lo que nos permite obtener un infinito el conjunto de entrenamiento. Este es un ejemplo para crear desde cero.
Otro método es el uso de los datos existentes, y luego modificar, por ejemplo, tener un poco de distorsión de la imagen, rotación desenfoque. Mientras creemos que es posible y real de datos a través de datos así tratados de manera similar, podemos utilizar este método para crear grandes cantidades de datos.
Por varias maneras de obtener más datos:
1. Datos artificial sintética
2. Manual de recogida de datos, marca
3. Crowdsourcing

4, el límite superior de análisis: que parte de la tubería para hacer a continuación

En la aplicación de la máquina de aprendizaje, por lo general necesitan varios pasos para una predicción final, ¿cómo podemos saber qué parte de los más pena el tiempo y esfuerzo para mejorarlo? Esta pregunta puede ser respondida por el límite superior de análisis.
Volviendo a nuestras aplicaciones de reconocimiento de caracteres, que diagrama de flujo es el siguiente:
Aquí Insertar imagen Descripción
Salida diagrama de flujo de cada parte se introduce en la siguiente sección, el límite superior del análisis, se selecciona una parte de la mano derecha 100% de la salida, y luego buscar en la aplicación la cantidad para mejorar el efecto general. Si nuestro ejemplo, el efecto general es un índice de exactitud del 72%.
Si hacemos la parte de texto de la salida de la detección como resultado 100% correcto, se encontró que el efecto global del sistema aumentó de 72% a 89%. Esto significa que es probable que quieren invertir tiempo y esfuerzo para mejorar nuestra sección de detección de texto.
A continuación, seleccionamos los datos de forma manual, por lo que el carácter de segmentación 100% los resultados de salida correcta y encontraron que el efecto global del sistema sólo para mejorar el 1%, lo que significa que nuestra sección de segmentación de caracteres puede haber sido lo suficientemente bueno.
Por último, la mano-seleccionamos los datos, por lo que el resultado de caracteres de salida de clasificación correcta al 100%, el efecto global del sistema ha mejorado en un 10%, lo que significa que se pudo darle más tiempo y esfuerzo para mejorar el rendimiento general de la aplicación.
Aquí Insertar imagen Descripción

Gracias al doctor equipo de traducción ampliamente Mar Amarillo y notas

Publicado 80 artículos originales · ganado elogios 140 · vistas 640 000 +

Supongo que te gusta

Origin blog.csdn.net/linjpg/article/details/104562978
Recomendado
Clasificación