tesseract-ocr训练数据步骤

编程语言 2023-09-06 21:05:22 阅读次数: 0

一，下载jTessBoxEditor工具

jTessBoxEditor工具是采用Tesseract的一款专业的orc样本识别训练软件，基于java开发而来，可以进行Tesseract样本训练，形成自己的语言库,提高图片文字的识别率和准确率。

官网下载地址：
https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

二，使用方法

配置好Java开发环境，解压文件，点击下图中的两个文件都可以启动

启动成功后的界面
操作步骤
制作图片 --> 生成box文件 --> 训字操作 --> 制作新库
生成box文件
训字操作

运行后在图片同目录生成box文件
还是使用jTessBoxEditor软件，打开图片，见到如下界面
矫正错误的字

制作新库
新库制作完成，在图片文件夹下会产生tessdata目录，制作的新库就在tessdata目录下
使用新库

然后把新库拷到Tesseract-OCR\tessdata目录下就可以使用了：
在Python代码中使用新库时，记得修改配置

text = pytesseract.image_to_string(im, lang='pingan_ocr')

猜你喜欢

转载自blog.csdn.net/zhuan_long/article/details/131844042

tesseract-ocr训练数据步骤

tesseract-ocr训练

Tesseract-OCR 字库训练

使用jTessBoxEditorFX训练Tesseract-OCR教程

Tesseract-OCR 训练教程（一）

Tesseract-OCR的简单使用与训练

[Tesseract-OCR]训练字库

tesseract-ocr的字库学习步骤(训练自己的文库)，关于ocr的对图片的解析,包括tesseract的安装（史上最全）

Tesseract-OCR 训练教程（二）合并新的训练文件

初识tesseract-ocr

Tesseract-OCR的使用

Tesseract-OCR 入门

安装tesseract-ocr

tesseract-ocr

Tesseract-OCR安装

python Tesseract-OCR

[tesseract-ocr]

Tesseract-OCR 4.1

Tesseract-OCR的安装

Tesseract-OCR识别中文与训练字库实例

使用Tesseract-OCR训练文字识别记录

Tesseract-OCR识别中文与训练字库

Tesseract-OCR识别中文与训练字库实例（转）

Tesseract-OCR 简单的中文数字混合训练

使用 tesseract-ocr生成训练库全部指令

Tesseract-OCR 字符识别---样本训练

###好#####Tesseract-OCR识别中文与训练字库实例

Ubuntu编译/安装/训练/运行tesseract-ocr

Tesseract-OCR样本训练方法详细

Tesseract-OCR LSTM二次训练遇到的坑

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)