[Python • Reconocimiento de imágenes] pytesseract reconoce y extrae rápidamente el texto de las imágenes

inserte la descripción de la imagen aquí

Consejo: hay muchas imágenes en este artículo, preste atención al tráfico en el teléfono móvil.


prefacio

Usando python para el reconocimiento de imágenes, hay muchas formas de reconocer y extraer el texto de la imagen, pero si desea hacer algo más simple, puede usar el motor de reconocimiento tesseract para lograrlo, y una línea de código puede extraer el texto de la imagen. .


1. Entorno de configuración

1. Instalar dependencias de python

Este programa utiliza dos bibliotecas de python, pytesseract y PIL, así que instálelas primero.

ejecuta el siguiente comando

pip install Pillow
pip install pytesseract 

Si no se informa ningún error en python, significa que el programa se instaló correctamente.
inserte la descripción de la imagen aquí

2. Instalar el motor de reconocimiento

Después de instalar las dos dependencias anteriores, se requiere el motor de reconocimiento correspondiente. haga clic para descargar

Usamos directamente la última versión construida el 10 de mayo.
inserte la descripción de la imagen aquí

Instale el motor de reconocimiento de Tesseract(可跳过)

Una vez completada la descarga, abra el programa para instalarlo, primero seleccione el idioma, elija inglés aquí Englishy luego haga clic enok

inserte la descripción de la imagen aquí
Lo siguiente es nexthacer clic en I Agreeaceptar el acuerdo,
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
instalar para todos los usuarios y luego hacer clic next, como se muestra en la imagen, y
inserte la descripción de la imagen aquí
luego instalar el paquete de idioma chino 用来识别中文, debe deslizarse hacia abajo, seleccionar chino, he seleccionado ambos chino simplificado horizontal y chino simplificado vertical, haga clic en siguiente después de completar,
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
seleccione la ruta de instalación, se recomienda instalar en otro que no sea la unidad C y luego haga clic next
inserte la descripción de la imagen aquí
aquí para instalar install,

inserte la descripción de la imagen aquí
Espere a que se complete la instalación.
inserte la descripción de la imagen aquí
Una vez finalizada la instalación, haga clic en nexty, a continuación, haga clic en finishpara completar la instalación.
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Verifica que la instalación fue exitosa

Agregue una variable de entorno, que es la ruta de la carpeta en la que instaló, agréguela directamente a la ruta
inserte la descripción de la imagen aquí
y luego ejecútela en la línea de comando.Si tesseract -ves igual a la figura a continuación, significa que la instaló correctamente .
inserte la descripción de la imagen aquí

2. Usar pasos

1. Importar biblioteca

from PIL import Image
import pytesseract

2. Extrae el texto de la imagen

Encapsule una línea de código para leer imágenes en una función,

def read_image(name):
    print(pytesseract.image_to_string(Image.open(name), lang='chi_sim'))

mainSolo llámalo directamente en la función ,

def main():
    read_image('1657158527412.jpg')

3. Efecto de operación

Tome la siguiente imagen como ejemplo,
inserte la descripción de la imagen aquí

El efecto de la operación es el siguiente,
inserte la descripción de la imagen aquí


Resumir

Este artículo presenta la llamada python de tesseract, es decir, la biblioteca pytesseract. Hay algunos otros contenidos que no están involucrados. Solo implica la extracción de imágenes y texto. Si está interesado, puede explorarlo en profundidad y Espero discutirlo conmigo. .

código completo

from PIL import Image
import pytesseract


def read_image(name):
    print(pytesseract.image_to_string(Image.open(name), lang='chi_sim'))


def main():
    read_image('img.png')


if __name__ == '__main__':
    main()

Supongo que te gusta

Origin blog.csdn.net/weixin_47754149/article/details/125651707
Recomendado
Clasificación