python -使用pytesseract识别文字时遇到的问题 - 代码天地

python -使用pytesseract识别文字时遇到的问题

其他 2020-04-18 17:36:48 阅读次数: 0

1、运行环境

(1) win10

(2) pycharm

(3) python 3.5

2、下载pytesseract、pillow库

（1）在cmd终端页面输入：pip install pytesseract

（2）在cmd终端页面输入：pip install pillow

3、安装Tesseract-OCR软件

我们需要下载Tesseract-OCR这个软件，这里我已经将东西都打包好了放在百度云中，大家可以直接下载：

https://pan.baidu.com/s/1AqkFp6QYB_beoy_GO9aCJA

提取密码：25et

或者在网上下载其他版本的软件：

https://digi.bib.uni-mannheim.de/tesseract/

打开安装包，进行一路安装：

记录好自己的安装路径

安装完之后找到tessdata目录下，将下载的chi_sim.traineddata文件放到该目录下。这样它就能识别中文了。

之后，我们只剩下一个东西要配一下了，在pytesseract模块中的pytesseract.py文件中去配置一下Tesseract-OCR的工作目录，这个时候我们可以通过刚刚pip安装的位置找到pytesseract.py文件，如下图：

进入目录找到pytesseract.py文件并且打开它：

将tesseract_cmd这个变量的值改成Tesseract-OCR的安装目录即可。

现在，我们在准备一张图片，用来识别：

4、编写代码进行测试

img2text.py

#coding:gbk
import pytesseract  
from PIL import Image


# 使用pytesseract对英文进行识别，lang参数可省略
code = pytesseract.image_to_string(Image.open(r'shijian.png'),lang="eng")
print(code)
# 使用pytesseract对中文（含英文，但识别率降低）进行识别
code = pytesseract.image_to_string(Image.open(r'shuzi.jpg'),lang='chi_sim')
print(code)

测试结果：

w (p won i

#coding:gbk

import pytesseract
from PIL import Image
H

"7999999999999"

我们可以看到在画质清晰的图片中，数字文字识别比较准确。

此次问题解决到此结束。

爱吃代码的熊猫

发布了78 篇原创文章 · 获赞 5 · 访问量 8295

私信关注

猜你喜欢

转载自blog.csdn.net/qq_36789311/article/details/102585927

python -使用pytesseract识别文字时遇到的问题

python -使用pytesseract识别验证码中遇到的问题

python使用pytesseract识别图片中的文字

python 使用pytesseract图片文字识别

python -使用pytesseract识别验证码-安装和使用中遇到的问题

python 文字识别之 pytesseract

python 使用pytesseract图片识别

Python爬虫Pytesseract图像识别与文字处理

通过Python的pytesseract库识别图片中的文字

Python3使用 pytesseract 进行图片识别

Python使用pytesseract进行验证码图像识别

python 使用 pip时遇到的问题

【Python • 图片识别】pytesseract快速识别提取图片中的文字

python pytesseract使用

Python实现OCR识别：pytesseract

小猪的Python学习之旅 —— 13.文字识别库pytesseract初体验

Python+pytesseract+Tesseract-OCR图片文字识别（只适合新手）

python+Selenium+Pytesseract 登录时自动识别验证码

centos 下使用 pytesseract 识别文字

Python里使用转义字符\r时遇到的问题

python 使用Graphviz绘图时遇到的问题、解决方法

使用pyinstaller打包python文件时遇到的模块问题

python-OCR图片识别库--pytesseract

Python 进行 OCR识别 -- pytesseract库

使用python内置库pytesseract实现图片验证码的识别

使用pytesseract进行图像识别字母和数字 (python3.x)

python-使用内置库pytesseract实现图片验证码的识别

python3使用Pillow、tesseract-ocr与pytesseract模块的图片识别的方法

【Python】Python文字识别

pytesseract文字识别

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)