Consejo: hay muchas imágenes en este artículo, preste atención al tráfico en el teléfono móvil.
Directorio de artículos
prefacio
Usando python para el reconocimiento de imágenes, hay muchas formas de reconocer y extraer el texto de la imagen, pero si desea hacer algo más simple, puede usar el motor de reconocimiento tesseract para lograrlo, y una línea de código puede extraer el texto de la imagen. .
1. Entorno de configuración
1. Instalar dependencias de python
Este programa utiliza dos bibliotecas de python, pytesseract y PIL, así que instálelas primero.
ejecuta el siguiente comando
pip install Pillow
pip install pytesseract
Si no se informa ningún error en python, significa que el programa se instaló correctamente.
2. Instalar el motor de reconocimiento
Después de instalar las dos dependencias anteriores, se requiere el motor de reconocimiento correspondiente. haga clic para descargar
Usamos directamente la última versión construida el 10 de mayo.
Instale el motor de reconocimiento de Tesseract(可跳过)
Una vez completada la descarga, abra el programa para instalarlo, primero seleccione el idioma, elija inglés aquí English
y luego haga clic enok
Lo siguiente es next
hacer clic en I Agree
aceptar el acuerdo,
instalar para todos los usuarios y luego hacer clic next
, como se muestra en la imagen, y
luego instalar el paquete de idioma chino 用来识别中文
, debe deslizarse hacia abajo, seleccionar chino, he seleccionado ambos chino simplificado horizontal y chino simplificado vertical, haga clic en siguiente después de completar,
seleccione la ruta de instalación, se recomienda instalar en otro que no sea la unidad C y luego haga clic next
aquí para instalar install
,
Espere a que se complete la instalación.
Una vez finalizada la instalación, haga clic en next
y, a continuación, haga clic en finish
para completar la instalación.
Verifica que la instalación fue exitosa
Agregue una variable de entorno, que es la ruta de la carpeta en la que instaló, agréguela directamente a la ruta
y luego ejecútela en la línea de comando.Si tesseract -v
es igual a la figura a continuación, significa que la instaló correctamente .
2. Usar pasos
1. Importar biblioteca
from PIL import Image
import pytesseract
2. Extrae el texto de la imagen
Encapsule una línea de código para leer imágenes en una función,
def read_image(name):
print(pytesseract.image_to_string(Image.open(name), lang='chi_sim'))
main
Solo llámalo directamente en la función ,
def main():
read_image('1657158527412.jpg')
3. Efecto de operación
Tome la siguiente imagen como ejemplo,
El efecto de la operación es el siguiente,
Resumir
Este artículo presenta la llamada python de tesseract, es decir, la biblioteca pytesseract. Hay algunos otros contenidos que no están involucrados. Solo implica la extracción de imágenes y texto. Si está interesado, puede explorarlo en profundidad y Espero discutirlo conmigo. .
código completo
from PIL import Image
import pytesseract
def read_image(name):
print(pytesseract.image_to_string(Image.open(name), lang='chi_sim'))
def main():
read_image('img.png')
if __name__ == '__main__':
main()