OCR图像识别初体验(一)

python使用库:PIL pytesseract
主要辅助识别程序:Tesseract-OCR
个人踩坑经历-实测有效
代码块:

from PIL import Image
import pytesseract
img = Image.open(r"F:\test\01.png")
text = pytesseract.image_to_string(img,lang='chi_sim')
print(text)

代码很简单,但是主要是Tesseract-OCR的安装 和 OCR汉化的安装以及环境变量的配置

Tesseract-OCR 和 汉化包资源下载:

链接:https://pan.baidu.com/s/1vqZVhu-WTeE-6zed1ZpoEg 
提取码:lkkl 
复制这段内容后打开百度网盘手机App,操作更方便哦

一)
直接执行下载好的tesseract-ocr-setup-4.0.0-alpha.20180109.exe,下一步、下一步安装。安装过程中,会让你安装额外的语言包,可根据选择下载。(不建议选择,因为是国外服务器,会下载失败)

第三步:配置环境变量

我的是安装在C:\Program Files (x86)\Tesseract-OCR,

将“C:\Program Files (x86)\Tesseract-OCR”添加到环境变量中

测试:
打开命令终端,输入:tesseract -v,可以看到版本信息
用命令tesseract --list-langs来查看Tesseract-OCR支持语言。

设置汉化包:
一)
下载 汉化压缩包,githhub上下载太慢,下载不下来,网上找的资源,
下载云盘里的 tessdata.zip文件
二)
解压缩后的所有文件复制到
Tesseract-OCR 下的 tessdata文件夹下
我的路径是 C:\Program Files (x86)\Tesseract-OCR\tessdata,重复的文件跳过即可
三)
添加TESSDATA_PREFIX的环境变量,设置为安装目录下的tessdata目录
如:D:\Program Files (x86)\Tesseract-OCR\tessdata
设置了环境变量后需要重启下才生效

执行前文代码即可
’示例

识别结果
在这里插入图片描述
识别原图
在这里插入图片描述
错误率有点儿高

附上其他相关学习链接:
1)https://zhuanlan.zhihu.com/p/30391661?utm_source=wechat_session&utm_medium=social&s_r=0
2)https://www.cnblogs.com/HL-space/p/10547259.html
3)https://mp.weixin.qq.com/s?__biz=MzIwNDA1OTM4NQ==&mid=2649543721&idx=1&sn=6ce719264e6f1fc9d407150362d0e14f&chksm=8edd93bfb9aa1aa986cf2a53fa2b4810665b57c344c4e7160be40d28fa20c9c4e0e728b3a511&mpshare=1&scene=1&srcid=&sharer_sharetime=1579184752640&sharer_shareid=626cc7814876b0a311c24ccf416cb880&rd2werd=1#wechat_redirect

发布了48 篇原创文章 · 获赞 44 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/qq_35866846/article/details/104316523