python+pillow+pytesseract+Tesseract-OCR验证码识别[转] - 代码天地

python+pillow+pytesseract+Tesseract-OCR验证码识别[转]

其他 2018-12-10 14:20:14 阅读次数: 0

安装 pillow，pytesseract ，安装该模块之后，还需要安装 tesseract-ocr 。

（PS：如果安装了pip，可以python的scripts文件下，输入cmd,然后输入pip install pillow安装最新版的pillow,如果需要安装其它版本的则要自己下载安装，安装其它第三方库都可用这种方法。）

tesseract-ocr 下载地址： https://digi.bib.uni-mannheim.de/tesseract/

本次测试下载的是 tesseract-ocr-setup-4.00.00dev.exe ，这块的过程遇到好几个问题。

FileNotFoundError: [WinError 2] 系统找不到指定的文件。

pytesseract.pytesseract.TesseractError: (2, ‘Usage: python pytesseract.py [-l lang] input_file’)

pytesseract.pytesseract.TesseractError: (1, ‘Error opening data file \Program Files (x86)\Tesseract-OCR\eng.traineddata’)

这几个问题主要是需要安装配置Tesseract-OCR，

下载安装tesseract-ocr，
添加环境变量： TESSDATA_PREFIX = C:\Program Files (x86)\Tesseract-OCR （PS：在环境变量中新添加变量：TESSDATA_PREFIX ，值（路径）为：C:\Program Files (x86)\Tesseract-OCR（安装路径））
编辑文件 D:\Python35\Lib\site-packages\pytesseract\pytesseract.py

tesseract_cmd = ‘tesseract’
改为：
tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract’

https://blog.csdn.net/qq_33472658/article/details/78760135

# coding=utf-8
import requests
import pytesseract
from PIL import Image
from io import BytesIO


# captcha_url = 'https://www.'
# captcha_content = requests.get(url=captcha_url)
# captcha_content = captcha_content.content
# # 用自字节读出图片
# image = Image.open(BytesIO(captcha_content))

img_path = r'1351_5243.png'
image = Image.open(img_path)
# 转化为灰度图
imgry = image.convert('L')
table = [0 if i < 140 else 1 for i in range(256)]
# 使字体更加突出的显示
out = imgry.point(table,'1')
# out.show()
captcha = pytesseract.image_to_string(out)
captcha = captcha.strip()
captcha = captcha.upper()
print(captcha)

猜你喜欢

转载自blog.csdn.net/weixin_42486685/article/details/84570779

python+pillow+pytesseract+Tesseract-OCR验证码识别[转]

Python验证码识别安装Pillow、tesseract-ocr与pytesseract模块的安装以及错误解决

【验证码识别】Pillow、tesseract-ocr与pytesseract模块的安装以及错误解决

OpenCV---数字验证码识别 Python验证码识别安装Pillow、tesseract-ocr与pytesseract模块的安装以及错误解决

python 爬虫 pytesseract 验证码识别：认识Tesseract

Python - PIL-pytesseract-tesseract验证码识别

python使用tesseract-ocr完成验证码识别

验证码识别（转载）https://www.cnblogs.com/VseYoung/p/code.html Tesseract-OCR Tesseract-OCR pytesseract

python3使用Pillow、tesseract-ocr与pytesseract模块的图片识别的方法

tesseract-ocr 传统验证码识别

Tesseract-ocr视觉学习-验证码识别及使用

nodeJS实现识别验证码（tesseract-ocr+GraphicsMagick）

Tesseract-OCR识别图片验证码

验证码识别之Tesseract-OCR

使用Tesseract OCR识别简单的验证码

python 做验证码识别 tesseract

Mac python Tesseract 验证码识别

python使用tesseract识别验证码

Python爬虫教程-29-验证码识别-Tesseract-OCR

python下调用pytesseract识别某网站验证码

python -使用pytesseract识别验证码中遇到的问题

Python3 pytesseract识别简单的验证码

python opencv+pytesseract 验证码识别

python爬虫验证码识别模块tesseracr与pytesseract

Python使用pytesseract进行验证码图像识别

python 爬虫 pytesseract 验证码识别：识别拉勾网验证码

用pytesseract识别验证码报错

pytesseract模块验证码图片识别

使用pytesseract识别简单验证码

图形验证码文字识别——pytesseract

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)