Tesseract-OCR试水

安装

github地址:https://github.com/tesseract-ocr/tesseract
由于测试是在win7环境下进行,我们选用Mannheim University包装过的版本
github地址:https://github.com/UB-Mannheim/tesseract/wiki
默认语言只支持英语,由于我们识别的是中文,我们需要下载中文模型包
github地址:https://github.com/tesseract-ocr/tessdata
找到并下载chi_sim.traineddata

运行

例如,要识别的图片为d:/test.png
打开命令行,切换到tesseract-ocr根目录,运行
tesseract d:/test.png test -l chi_sim+eng
生成的test.txt即为识别结果

测试

测试1:手机拍摄带角度图片
在这里插入图片描述
在这里插入图片描述
测试2:手机拍摄带阴影图片
在这里插入图片描述
在这里插入图片描述
测试3:PDF转换的PNG图片,中文包含古文
在这里插入图片描述
在这里插入图片描述
测试4:PDF转换的PNG图片,英文与中文
在这里插入图片描述
在这里插入图片描述

结论

测试名称 总字数 错误数 正确率
测试1 184 16 91.3%
测试2 184 108 41.3%
测试3 935 71 92.4%
测试4 407 12 97.1%

1.Tesseract-OCR内置的预处理模块对于旋转、阴影并不能很好处理,特别是阴影
2.Tesseract-OCR对于古文识别率较低

发布了2 篇原创文章 · 获赞 2 · 访问量 351

猜你喜欢

转载自blog.csdn.net/fatesunlove/article/details/104552659
今日推荐