Notas de estudo de OCR (3) estudo de tesserato
Introdução ao tesseract
Tesseract é um projeto de reconhecimento de texto de código aberto mantido pelo Google após o lançamento do HP. A partir do Tesseract v4, ele anunciou o suporte para rede neural profunda LSTM para reconhecimento de texto.
instalação tessercat sob win10
(0) Minha versão python é 3.6.5
(1) Link para download: https://digi.bib.uni-mannheim.de/tesseract/
A versão que escolhi é:
A versão aqui precisa ser instalada mais tarde com tessorocr ou pytesseract corresponder.
Não verifique o conteúdo do downloda durante a instalação, porque o download sem uma escada será lento ou falhará.
(2) Você pode baixar o pacote de idioma no GitHub: https://github.com/tesseract-ocr/tessdata
Eu escolhi o pacote de idioma chinês e
copiei os arquivos baixados para a pasta tessdata no diretório Tesseract-OCR , E copie a pasta tessdate para o diretório de instalação do python.
(3) Adicione a variável de ambiente
aqui por blog de referência, os blogueiros explicam muito claramente o blog de referência de variável de ambiente
instalação pytesseract ou tesserocr
(1) pacote teseerocr, o processo de instalação é: baixe tesserocr-2.2.2-cp36-cp36m-win_amd64.whl
no github e instale-o com cmd.
Código:
import tesserocr
from PIL import Image
image = Image.open(r'F:\download\blueman00-text-detection-ctpn-master\text-detection-ctpn\ctpn\data\demo\010.png')
image_vert=tesserocr.image_to_text(image)
print(image_vert)
A entrada é: a
saída é:
(2) instalação do pytesseract
Eu instalei diretamente no
código do pycharm :
import pytesseract
from PIL import Image
image = Image.open(r'F:\download\blueman00-text-detection-ctpn-master\text-detection-ctpn\ctpn\data\demo\010.png')
image_vert=pytesseract.image_to_string(image)
print(image_vert)