如何用Python来识别最简单的验证码?然后在识别12306的验证码?

今天暂时就教大家识别最简单的验证码吧,12306的验证码称之为最难的验证码,这点也确实,所以涉及的东西很多,暂时就不去搞12306的验证码了,一般的小白的话也看不懂!

概述

  • 简介
  • 坑!
  • 安装 Tesseract-OCR
  • 使用 pytesseract 识别验证码
  • 高级玩法 - 除线

简介

首先呢,简单的验证码是这样的:

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

不是这样的:

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

进群:548377875   即可获取数十套PDF哦!

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

pillow 的缘由:由于PIL仅支持到Python 2.7,加上年久失修,于是一群志愿者在PIL的基础上创建了兼容的版本,名字叫Pillow,支持最新Python 3.x,又加入了许多新特性。

32 位系统

pip install PIL

64 位系统

pip install pillow

安装 Tesseract-OCR

在使用 pytesseract 之前,必须安装 tesseract-ocr ,因为 pytesserat 依赖于 tesseract-ocr ,否则无法使用

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

使用 pytesseract 识别验证码

首先将图像灰度化

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

二值化的图像是这个样子的:

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

最后进行识别

# 识别

text = pytesseract.image_to_string(out)

print("识别结果:"+text)

识别结果是这样的:

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

高级玩法 - 除线

上面的知识简单的处理,在日常网络冲浪中,我们还会遇到这样的验证码:

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

这个给我们的识别增加了难度,我们要做的就是将这条线去掉。详细代码如下:

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

那么我们的运行结果是这样的:

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

总结

经过这么一些折腾,我们总算是看到了我们想要的结果,但是我很遗憾地告诉你,pytesseract 还是无法识别处理过的图片,他的识别结果是这样的:

如何用Python来识别最简单的验证码?然后在识别12306的验证码?

结果有点令人痛心,不过我们也算是为我们的目标踏进了一小步。你以为这篇文章就这样完了吗?嗯,是的,这篇文章就这样完了。不过好在 pytesseract 提供了自定义训练功能,来提高识别能力(也可以自建神经网络进行识别),这个暂且放到下一篇文章来写吧,因为昨天是七夕耶。

猜你喜欢

转载自blog.csdn.net/qq_42156420/article/details/82220163
今日推荐