OCR图像识别初体验（一）

python使用库：PIL pytesseract
主要辅助识别程序：Tesseract-OCR
个人踩坑经历-实测有效
代码块：

from PIL import Image
import pytesseract
img = Image.open(r"F:\test\01.png")
text = pytesseract.image_to_string(img,lang='chi_sim')
print(text)

代码很简单，但是主要是Tesseract-OCR的安装和 OCR汉化的安装以及环境变量的配置

Tesseract-OCR 和汉化包资源下载：

链接：https://pan.baidu.com/s/1vqZVhu-WTeE-6zed1ZpoEg 
提取码：lkkl 
复制这段内容后打开百度网盘手机App，操作更方便哦

一）
直接执行下载好的tesseract-ocr-setup-4.0.0-alpha.20180109.exe，下一步、下一步安装。安装过程中，会让你安装额外的语言包，可根据选择下载。（不建议选择，因为是国外服务器，会下载失败）

第三步：配置环境变量

我的是安装在C:\Program Files (x86)\Tesseract-OCR，

将“C:\Program Files (x86)\Tesseract-OCR”添加到环境变量中

测试：
打开命令终端，输入：tesseract -v，可以看到版本信息
用命令tesseract --list-langs来查看Tesseract-OCR支持语言。

设置汉化包：
一）
下载汉化压缩包，githhub上下载太慢，下载不下来，网上找的资源，
下载云盘里的 tessdata.zip文件
二）
解压缩后的所有文件复制到
Tesseract-OCR 下的 tessdata文件夹下
我的路径是 C:\Program Files (x86)\Tesseract-OCR\tessdata，重复的文件跳过即可
三）
添加TESSDATA_PREFIX的环境变量，设置为安装目录下的tessdata目录
如:D:\Program Files (x86)\Tesseract-OCR\tessdata
设置了环境变量后需要重启下才生效

执行前文代码即可
‘’示例

识别结果
在这里插入图片描述
识别原图

错误率有点儿高

附上其他相关学习链接：
1）https://zhuanlan.zhihu.com/p/30391661?utm_source=wechat_session&utm_medium=social&s_r=0
2）https://www.cnblogs.com/HL-space/p/10547259.html
3）https://mp.weixin.qq.com/s?__biz=MzIwNDA1OTM4NQ==&mid=2649543721&idx=1&sn=6ce719264e6f1fc9d407150362d0e14f&chksm=8edd93bfb9aa1aa986cf2a53fa2b4810665b57c344c4e7160be40d28fa20c9c4e0e728b3a511&mpshare=1&scene=1&srcid=&sharer_sharetime=1579184752640&sharer_shareid=626cc7814876b0a311c24ccf416cb880&rd2werd=1#wechat_redirect

诡途

发布了48 篇原创文章 · 获赞 44 · 访问量 1万+

私信关注

OCR图像识别初体验（一）

猜你喜欢