Python学习笔记--Python 爬虫入门 -17-11 tesseract-OCR - 代码天地

Python学习笔记--Python 爬虫入门 -17-11 tesseract-OCR

其他 2018-09-26 03:12:42 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u013985879/article/details/82598127

一.Tesseract 安装教程请参考:

https://jingyan.baidu.com/article/219f4bf788addfde442d38fe.html

这里说明两点关于配置环境变量的地方:

1.1在环境变量PATH，把tesseract-ocr的安装路径添加进去。

D:\softWare\tesseract\Tesseract-OCR

注意，添加时候开头用“;”跟之前的变量隔开，结尾以“;”结尾。

2.在环境变量中，增加一个TESSDATA_PREFIX变量名，

变量值tessdata的安装路径

D:\softWare\tesseract\Tesseract-OCR\tessdata

然后DOS 窗口下,输入 tesseract 显示如下表明安装成功

扫描二维码关注公众号，回复： 3352765 查看本文章

二.安装Pillow pip install Pillow

三.安装pytesseract pip install pytesseract

四.使用:

注意:改变环境变量需要重新打开powershell

输入:

tesseract bigdata.jpg 2 -l chi_sim

bigdata.jpg是当前目录中的bigdata.jpg图片

2 是指定结果输出到文本文件,默认txt后缀

-l是指定使用的包

chi_sim是中文识别包

五.代码

import  pytesseract as pt
from  PIL import  Image
#指定tesseract 地址
pt.pytesseract.tesseract_cmd=r"D:\softWare\tesseract\Tesseract-OCR\tesseract.exe"
image = Image.open(r"C:\Users\Dream\Pictures\wyy1.png")
print(type(image))
print(image)

text = pt.image_to_string(image)
# text = pt.image_to_data(image)
print(text)

猜你喜欢

转载自blog.csdn.net/u013985879/article/details/82598127

Python学习笔记--Python 爬虫入门 -17-11 tesseract-OCR

python Tesseract-OCR

Tesseract-OCR 入门

Tesseract-OCR引擎入门

Tesseract-OCR 入门使用

Python爬虫笔记【一】模拟用户访问之Tesseract-ocr验证码训练（5）

Python爬虫教程-29-验证码识别-Tesseract-OCR

Python3.6使用tesseract-ocr的正确姿势

linux下python使用tesseract-ocr进行图片识别

python用tesseract-ocr做图像识别

python tesseract-ocr 安装包下载地址

Python pyocr和Tesseract-OCR的安装以及使用

python使用tesseract-ocr完成验证码识别

python集成Tesseract-OCR实现光学字符识别

[笔记]Win10下编译Tesseract-OCR 4.0

Tesseract-ocr视觉学习-验证码识别及使用

【opencv 学习】使用tesseract-ocr机芯数字识别

tesseract-ocr的字库学习步骤(训练自己的文库)，关于ocr的对图片的解析,包括tesseract的安装（史上最全）

Python入门学习笔记11：原生爬虫

最全Tesseract-OCR引擎安装步骤！！！适用于动态爬虫处理验证码！

windows 10环境下安装Tesseract-OCR与python集成

python3使用Pillow、tesseract-ocr与pytesseract模块的图片识别的方法

Tesseract-OCR从入门到精通之windows环境实现图片文字识别

Mac下Tesseract-OCR文字识别新手使用入门

Tesseract-OCR入门使用（1）-安装包获取和命令行调用

Tesseract-OCR入门使用（3）-VS2010编译源码

图像识别学习记录——用tesseract-ocr程序识别图片中的数字

Tesseract-OCR的使用

初识tesseract-ocr

安装tesseract-ocr

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)