Notas de estudo de OCR (3) estudo de tesserato

Introdução ao tesseract

Tesseract é um projeto de reconhecimento de texto de código aberto mantido pelo Google após o lançamento do HP. A partir do Tesseract v4, ele anunciou o suporte para rede neural profunda LSTM para reconhecimento de texto.

instalação tessercat sob win10

(0) Minha versão python é 3.6.5
(1) Link para download: https://digi.bib.uni-mannheim.de/tesseract/
A versão que escolhi é: Insira a descrição da imagem aqui
A versão aqui precisa ser instalada mais tarde com tessorocr ou pytesseract corresponder.
Não verifique o conteúdo do downloda durante a instalação, porque o download sem uma escada será lento ou falhará.
(2) Você pode baixar o pacote de idioma no GitHub: https://github.com/tesseract-ocr/tessdata
Eu escolhi o pacote de idioma chinês e
Insira a descrição da imagem aqui
copiei os arquivos baixados para a pasta tessdata no diretório Tesseract-OCR , E copie a pasta tessdate para o diretório de instalação do python.
(3) Adicione a variável de ambiente
aqui por blog de referência, os blogueiros explicam muito claramente o blog de referência de variável de ambiente

instalação pytesseract ou tesserocr

(1) pacote teseerocr, o processo de instalação é: baixe tesserocr-2.2.2-cp36-cp36m-win_amd64.whl
no github e instale-o com cmd.
Código:

import tesserocr
from PIL import Image
image = Image.open(r'F:\download\blueman00-text-detection-ctpn-master\text-detection-ctpn\ctpn\data\demo\010.png')
image_vert=tesserocr.image_to_text(image)
print(image_vert)

A entrada é: a Insira a descrição da imagem aqui
saída é:

(2) instalação do pytesseract
Eu instalei diretamente no

código do pycharm :

import pytesseract
from PIL import Image
image = Image.open(r'F:\download\blueman00-text-detection-ctpn-master\text-detection-ctpn\ctpn\data\demo\010.png')
image_vert=pytesseract.image_to_string(image)
print(image_vert)