tesseract-ocr训练数据步骤

一,下载jTessBoxEditor工具

jTessBoxEditor工具是采用Tesseract的一款专业的orc样本识别训练软件,基于java开发而来,可以进行Tesseract样本训练,形成自己的语言库,提高图片文字的识别率和准确率。

官网下载地址:
https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

二,使用方法

  1. 配置好Java开发环境,解压文件,点击下图中的两个文件都可以启动
    在这里插入图片描述
    启动成功后的界面
    在这里插入图片描述

  2. 操作步骤
    制作图片 --> 生成box文件 --> 训字操作 --> 制作新库

  3. 生成box文件
    在这里插入图片描述

  4. 训字操作

  • 运行后在图片同目录生成box文件
  • 还是使用jTessBoxEditor软件,打开图片,见到如下界面
  • 矫正错误的字
    在这里插入图片描述
  1. 制作新库
    在这里插入图片描述
  2. 新库制作完成,在图片文件夹下会产生tessdata目录,制作的新库就在tessdata目录下
  3. 使用新库
  • 然后把新库拷到Tesseract-OCR\tessdata目录下就可以使用了:
  • 在Python代码中使用新库时,记得修改配置
text = pytesseract.image_to_string(im, lang='pingan_ocr')

猜你喜欢

转载自blog.csdn.net/zhuan_long/article/details/131844042