利用pytesser3识别字符验证码

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzyaiwl/article/details/89036030

安装Tesseract-Ocr

pytesser3包是用来操控Tesseract-Ocr实现字符识别。首先需要安装Tesseract-Ocr这个开源字符识别引擎。各个环境下安装方式不同。

Windows下,可在我的资源下下载压缩包并解压;Linux下下载输入指令sudo apt-get install tesseract-orc   sudo apt-get install libtesseract-dev ;Mac下安装输入指令 brew install tesseract。

安装pytesser3

python提供了pytesser3包来操控Tesseract-Ocr来识别字符串。安装直接pip install pytesser3

配置

Windows下解压完Tesseract-Ocr后,需要找到python安装目录下的lib的site-backages的pytesser3的__init__.py文件,打开修改tesseract_exe_name的值为解压Tesseract-Ocr后的路径。

 

识别字符验证码

步骤

  1. 读取图片
  2. 转为灰度图
  3. 图片二值化
  4. 去噪
  5. 调用pytesser识别

字符验证码图片

下面代码省略了去噪一步。

from PIL import Image
import pytesser3


def Binary(x,y,img):
    for i in range(x):
        for j in range(y):
            if img[i,j] >= 180:
                img[i,j] = 255
            else:
                img[i,j] = 0
    return img

img = Image.open('bbb.jpg')
img = img.convert('L')
x, y = img.size
imgdata = img.load()

imgdata = Binary(x,y,imgdata)
print(pytesser3.image_to_string(img))
7364

猜你喜欢

转载自blog.csdn.net/wzyaiwl/article/details/89036030