最近在测试一个视频系统,由于播放器是第三方插件,为监测系统不稳定各种情况的具体百分比,故从UI层进行截图,并对图片进行识别。下面描述一下欲使用pytesseract进行的环境搭建过程(我使用的anaconda进行管理库的,库文件需要安装在anaconda/scripts下)。
准备:tesseract-ocr和中文语言包chi_sim.traineddata
1.安装pytesseract
2.安装pillow
pillow为Python的第三方图像处理库,可以对图像进行存储、显示、格式转化等相关处理。PIL和pillow是同样作用的库,两者只能安装一个。
安装方法同上,命令为pip install pillow
3.安装识别引擎tesseract-ocr
tesseract是开源的OCX(光学字符识别-对图片文件中的文字进行分析识别、获取的过程)识别引擎。
运行下载的安装程序tesseract-ocr-setup-4.00.00dev.exe
安装后如图所示:
4.中文语言包放入tessdata目录
由于tesseract-ocr默认是不支持中文识别的,需将提前下载好的中文语言包放入识别引擎的文件tessdata文件目录下方才可识别,如下图所示:
5.修改配置,关联tesseract-ocr
打开pytesseract.py文件进行如下修改:
6.验证
识别的图片:
编写如下程序并运行
运行结果:
注意:图片位置