使用pytesseract识别图片的环境搭建

最近在测试一个视频系统,由于播放器是第三方插件,为监测系统不稳定各种情况的具体百分比,故从UI层进行截图,并对图片进行识别。下面描述一下欲使用pytesseract进行的环境搭建过程(我使用的anaconda进行管理库的,库文件需要安装在anaconda/scripts下)。

准备:tesseract-ocr和中文语言包chi_sim.traineddata

1.安装pytesseract
安装pytesseract库
2.安装pillow
pillow为Python的第三方图像处理库,可以对图像进行存储、显示、格式转化等相关处理。PIL和pillow是同样作用的库,两者只能安装一个。
安装方法同上,命令为pip install pillow
3.安装识别引擎tesseract-ocr
tesseract是开源的OCX(光学字符识别-对图片文件中的文字进行分析识别、获取的过程)识别引擎。
运行下载的安装程序tesseract-ocr-setup-4.00.00dev.exe
安装的识别引擎
安装后如图所示:
安装以后
4.中文语言包放入tessdata目录
由于tesseract-ocr默认是不支持中文识别的,需将提前下载好的中文语言包放入识别引擎的文件tessdata文件目录下方才可识别,如下图所示:
中文语言包
5.修改配置,关联tesseract-ocr
打开pytesseract.py文件进行如下修改:
配置文件的位置
修改的内容
6.验证
识别的图片:
识别的图片
编写如下程序并运行 程序
运行结果:
在这里插入图片描述
注意:图片位置
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_44801116/article/details/88698232
今日推荐