版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzyaiwl/article/details/89036030
安装Tesseract-Ocr
pytesser3包是用来操控Tesseract-Ocr实现字符识别。首先需要安装Tesseract-Ocr这个开源字符识别引擎。各个环境下安装方式不同。
Windows下,可在我的资源下下载压缩包并解压;Linux下下载输入指令sudo apt-get install tesseract-orc sudo apt-get install libtesseract-dev ;Mac下安装输入指令 brew install tesseract。
安装pytesser3
python提供了pytesser3包来操控Tesseract-Ocr来识别字符串。安装直接pip install pytesser3
配置
Windows下解压完Tesseract-Ocr后,需要找到python安装目录下的lib的site-backages的pytesser3的__init__.py文件,打开修改tesseract_exe_name的值为解压Tesseract-Ocr后的路径。
识别字符验证码
步骤
- 读取图片
- 转为灰度图
- 图片二值化
- 去噪
- 调用pytesser识别
字符验证码图片
下面代码省略了去噪一步。
from PIL import Image
import pytesser3
def Binary(x,y,img):
for i in range(x):
for j in range(y):
if img[i,j] >= 180:
img[i,j] = 255
else:
img[i,j] = 0
return img
img = Image.open('bbb.jpg')
img = img.convert('L')
x, y = img.size
imgdata = img.load()
imgdata = Binary(x,y,imgdata)
print(pytesser3.image_to_string(img))
7364