之前的版本是pytesser,我用的python3.6版本的,发现通过pip安装提示版本不兼容,改为pip install pytesser3就可以安装成功了。
另外,使用pytesser3必须要依赖于pillow库pillow官方地址,可以从该地址处下载,使用pip安装。
以上工作完成后,我们还需要将pytesser3文件放入python目录中的Lib\site-packages中,并且修改pytesser3文件夹中的__init__.py,打开后注意注释,根据注释进行修改。
修改tesseract_exe_name的值,我们会发现安装的pytesser3文件夹中并没有tesseract.exe安装程序。我们还需下载pytesser之前的旧版本,官网打不开,可以点击这个链接这篇博客里有百度网盘。下载并解压pytesser_v0.0.1文件,发现里面有tesseract.exe安装程序,把安装程序目录复制粘贴到pytesser3的__init__.py中的tesseract_exe_name中。另外,最好把pytesser_v0.0.1文件中的tessdata文件夹以及tesseract.log都放入工程文件夹中。下面就可以写代码运行了。
from pytesser3 import *
from PIL import Image
text = image_file_to_string("phototest.tif",graceful_errors=True)
print (text)
from pytesser3 import *
from PIL import Image
img = Image.open('phototest.tif')
text = image_to_string(img)
print (text)
两种实现形式,运行结果如下所示:
原图如下:
利用该模块进行图像文字识别效果很不理想,对于以上图片清晰且都是英文字符能进行有效识别,但对于汉字,数字等识别效果非常不理想。