tesserocr是OCR识别库,通过扫描字符,将其形状翻译成文本。实质是tesseract的封装,用于识别各种各样的验证码。
tesserocr库的安装步骤如下:
【第一步】先下载tesseract
tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/
//本人下载的是tesseract-ocr-setup-3.05.01-20170602.exe,在安装的过程中注意勾选Additional language data(download)选项,这样OCR即可识别多国语言。
注意:千万要留意一下tesseract的安装目录,下一步中要配置该路径。语言数据包的安装时间较长,请多点耐心。
【第二步】配置Tesseract-OCR
将tesseract-ocr的安装路径配置到系统环境变量Path中 :
“高级系统设置” --> “环境变量”-->在系统变量中找到“Path”-->“编辑”-->“新建”-->将安装路径加进去-->“确定”
例如:博主本人的安装路径是E:\SETUPPLACE\Tesseract\Tesseract-OCR,下图为本人示例。
【第三步】配置tessdata数据文件
将Tesseract-OCR文件夹中的tessdata文件夹如上类似操作配置入环境变量,并以TESSDATA_PREFIX命名变量保存。
例如:博主本人的tessdata文件目录为E:\SETUPPLACE\Tesseract\Tesseract-OCR\tessdata
【第四步】 验证tesseract是否配置成功
$ tesseract --version
//在命令行中执行后,如果没有报错,返回版本信息即为配置成功。
【第五步】确定python版本
$ python --version
//博主本人的返回结果是Python 3.7.2
【第六步】根据个人的python版本与系统版本确定tesserocr的whl安装包
tesserocr的whl安装包下载地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases
注意:由于博主是64位的系统,python版本为3.7所以选择了下图中红色框中的版本
【第七步】使用pip安装whl文件
//whl文件下载到本地后,使用命令行进入whl文件所在目录进行安装
//例如:保存位置在桌面
$ cd C:\Users\Administrator\Desktop
$ pip3 install tesserocr-2.4.0-cp37-cp37m-win_amd64.whl
//如果没有报错,即为安装成功。
【第八步】简单示例使用
import tesserocr
from PIL import Image
image = Image.open('image1.png')
result = tesserocr.image_to_text(image)
print(result)
如图,成功返回Python3