从下载到识别（Keras深度学习），一步步完成支付宝验证码的自动识别(带练习的训练集) - 代码天地

从下载到识别（Keras深度学习），一步步完成支付宝验证码的自动识别(带练习的训练集)

其他 2020-02-07 10:04:04 阅读次数: 0

从下载到识别，一步步完成支付宝验证码的自动识别

开始训练

修改配置
运行代码

使用模型示例

修改配置
使用程序运行

本教程仅供学习，不会提供任何可直接使用的模型和程序
使用深度学习框架Keras
python版本3.6
验证码主要是用于智能区分人机。而爬虫一部分得工作就是模拟人得行为去浏览。
自然就站在了对立面
今天带大家练习得是还在广泛使用的，定长型字符验证码

这个是支付宝得官网的登录验证码

在这里插入图片描述

而我们需要做的就是
在这里插入图片描述
自动化的识别验证码内容

既然使用到了深度学习，就需要先准备训练集
因为我这边已经有一个模型了，所以准备训练集的过程会简单很多，(但是大多数情况需要手动标注而且量需要数千上W才会有较好的效果或)

在这里插入图片描述
链接：https://pan.baidu.com/s/1Czw6sMjr3a7zqrrvvQ5JAg
提取码：27ks
站内下载地址

下载验证码的爬虫python代码，可以参考

'''
 支付宝验证码下载程序
'''

import requests
import time
import uuid

savePath = 'E:/captcha/alipay/'
for i in range(1, 5000):
    print(i)
    t = time.time()
    url = 'https://authem14.alipay.com/login/imgcode.htm?sessionID=2296f49bfd4f29b1da26053b0eedfcb3&t=' + str(t)
    session = requests.Session()
    session.headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/531.36",
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",
        "Connection": "keep-alive"
    }
    response = session.get(url)
    imgName = str(uuid.uuid1()) + '.jpg'
    with open(savePath + imgName, "wb") as f:
        f.write(response.content)

开始训练

修改配置

首先是准备代码
代码的话是我之前准备的一个小工程
https://github.com/cycz/EasyCaptcha
有用的话帮忙star一下
在这里插入图片描述

找到这一个代码ImmutableCaptcha.py（这个是训练代码）

准备好python环境（包括tensorflow2.0以下，keras）

修改代码中几个配置就可以进行训练

在这里插入图片描述
修改验证码可能出现字符

在这里插入图片描述
验证码文件夹路径

验证码长度
这里验证码是四位的就填写4

在这里插入图片描述

模型名称和保存路径

这里我测试的验证码大概只有5000张
所以15轮就足以
如果成功率一直上不去
可以将轮次调大到几十上百轮

运行代码

在这里插入图片描述
看到这个就是已经成功的开始训练
给讲讲如何看这个输出

Epoch 1/15

这个是总轮次以及目前多少轮

256/5012

这个是一共多少样本和每批次训练多少，这里设定的是256（这个设大设小对模型学习也有一定影响）

loss: 19.5090 - c1_loss: 5.3098 - c2_loss: 4.4721 - c3_loss: 4.7025 - c4_loss: 5.0247

这一块有4个loss，每个loss都是损失值（这个数值越小越好，深度学习训练的过程，就是为了将损失值接近0）

c1_acc: 0.0195 - c2_acc: 0.0352 - c3_acc: 0.0156 - c4_acc: 0.0547

四个acc 就是分别是4位验证码的训练集识别成功率
在这里插入图片描述

经过15轮的训练，训练集成功率已经非常高了。
因为这里没有设置验证集，所以不代表模型的效果也会非常好
样本比较多的可以适当调整一下，分出一部分做验证集，防止模型过拟合

更多深度学习的知识样本调参，还是非常丰富的，大家可以自己了解

使用模型示例

找到这一个代码ImmutableCaptcha_loadModel.py（这个是训练代码）
这个是调用模型的一个样例

修改配置

[(img-bBTSLeuy-1580725737326)(./images/1580725390930.png)]
在这里插入图片描述
均要和训练时保持一致

在这里插入图片描述
读取模型路径

使用程序运行

在这里插入图片描述
输入图片的路径、即可输出识别的内容

可见训练集内容还是比较准确
训练集外的还是差了一点点

推测是训练集少了一些的原因

在这里插入图片描述
弄成这样的接口供其他程序调用呢

这就需要其他web框架的配合
点个赞下回分析

发布了33 篇原创文章 · 获赞 38 · 访问量 2万+

私信关注

猜你喜欢

转载自blog.csdn.net/cyz52/article/details/104160144

从下载到识别（Keras深度学习），一步步完成支付宝验证码的自动识别(带练习的训练集)

Python验证码自动识别

网站验证码自动识别

一步步学习如何用Lerna

一步步学习Flex弹性布局

深度学习与围棋，零开始一步步实现自己的“AlphaGo”

一步一步带你完成支付宝支付功能的集成（超详细）

一步步做一个数字手势识别APP

tensorflow-GPU 一步步搭建网络实现MNIST手写识别

Opencv之停车场车位识别（不用类不用函数，一步步实现）

web网站验证码自动识别

[机器视觉] 使用python自动识别验证码

中文点选验证码之自动识别

Python图片验证码自动识别

WebDriver中自动识别验证码--Python实现

系统如何自动识别短信验证码

Python爬虫自动识别验证码登陆

一步步完成“迷你版” 的ASP.NET Core框架

Swift——iOS内购教程，一步步教你完成内购

一步步完成Maven+SpringMVC+SpringFox+Swagger整合示例

Scaled-Yolov4训练代码一步步复现

C#/.NET WebService的一步步创建使用及访问验证

转载——一步步学习js 一步步学习javascript基础篇（0）:开篇索引

网页自动化，验证码识别函数，深度学习训练

你的深度思考能力，是如何一步步被毁掉的？奶嘴战略

爬虫验证码很难吗？自动识别验证码程序了解一下？

FastDfs从一步步搭建到开发应用的上传，下载，删除

一步步用Rxjava+Retrofit+OKhttp实现下载进度监听

一步步从Spring Framework装配掌握SpringBoot自动装配

一步步构建“半自动”数据分页模块

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)