python + tesseract OCR 文字识别 - 代码天地

python + tesseract OCR 文字识别

其他 2020-01-29 10:23:22 阅读次数: 0

1.环境准备

——windows7 64位

——python 2.7

——tesseract-ocr，是google管理的开源项目。可以在这里获取https://github.com/tesseract-ocr/tesseract/wiki/Downloads，这里我们下载4.0版本。https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe，下载完成后按照默认设置安装。

安装完毕后，需要配置2个环境变量。

1.path中添加tesseract.exe所在目录

2.增加一个TESSDATA_PREFIX变量名，变量值还是我的安装路径C:\Program Files (x86)\Tesseract-OCR;

安装详细步骤，可参考https://www.cnblogs.com/jianqingwang/p/6978724.html

——pytesseract，是tesseract的python库所以，使用pip即可安装这个库。同时我们还需要PIL用于图像处理，在没有PIL的情况下，tesseract只支持bmp图片。PIL现在改名为pillow，在pip安装的时候，需要注意名称。

pip install pillow
pip install pytesseract

扫描二维码关注公众号，回复： 8916882 查看本文章

2.tesseract的应用

import pytesseract
from PIL import Image

code = image_to_string(Image.open('test.png'), lang="eng", config="-psm 7")
print code

以上代码可以识别test.png的文字，lang参数表示language，eng表示英文，config参数为识别方式，可以在cmd中执行tesseract，可以看到-psm的值表示的识别方式，这里-psm 7表示识别为单行文字

日取其半万世不竭

发布了9 篇原创文章 · 获赞 6 · 访问量 1万+

私信关注

猜你喜欢

转载自blog.csdn.net/jjiejingtazhu/article/details/78877382

python + tesseract OCR 文字识别

Tesseract Ocr文字识别

图片文字识别：Tesseract OCR库在Python中基本使用

python+Tesseract OCR实现截屏识别文字

图片文字OCR识别-tesseract-ocr

使用Tesseract对图片文字OCR识别

Tesseract-OCR-01-图片文字识别

Tesseract-OCR-03-图片文字识别

java图片文字识别tesseract-ocr

python Tesseract-OCR

Python+pytesseract+Tesseract-OCR图片文字识别（只适合新手）

Python+Tesseract-OCR识别图片文字并保存到word文档

linux下python使用tesseract-ocr进行图片识别

python用tesseract-ocr做图像识别

python使用tesseract-ocr完成验证码识别

python集成Tesseract-OCR实现光学字符识别

基于python和tesseract库的中英文识别（OCR)

Python+OpenCV+Tesseract实现OCR字符识别

Tesseract-OCR 识别中文

Tesseract OCR与文本智能识别

[Unity]OCR识别--Tesseract篇

NET 2.0 OCR文字识别技术（Tesseract 引擎）［转］

图片文字识别开源工具Tesseract-ocr

使用Tesseract-OCR训练文字识别记录

如何使用tesseract-ocr4.0识别图片文字

Mac OCR 图像文字识别调研（tesseract & baidu clound）

mac上文字识别(Tesseract-OCR for mac )

使用tesseract-ocr实现图片文字识别 docker版

文字识别OCR开源框架的对比--Tesseract vs EasyOCR

tesseract-ocr+java实现图片文字识别

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)