Tesseract-OCR识别中文之---训练自定义字库生成语言包 - 代码天地

Tesseract-OCR识别中文之---训练自定义字库生成语言包

其他 2019-06-11 10:11:05 阅读次数: 0

在之前已经说明过Tessract-OCR识别(手写|通用字体)中文了,只不过使用的是官方的汉字库,

https://blog.csdn.net/weixin_37794901/article/details/83343092;

若想提高针对几个汉字的识别,可以自己训练文字库生成语言包,这里采用的是比较智障的方式手动机器训练哈;

1.工具:

1)安装好Tesseract-OCR 2)训练工具 jTessBoxEditor (需Java环境),具体如何使用可以网上捞;

2.demo(window10环境)

1)将测试的图片(带有中文的)转换成tiff格式:https://www.aconvert.com/cn/image/jpg-to-tiff/

2)文件命名的格式:

tif文面命名格式[lang].[fontname].exp[num].tif,

lang是语言 fontname是字体,比如我们要训练自定义字库 mjorcen字体名normal,那么我们把图片文件重命名 mjorcen.normal.exp0.jpg在转tif。

3)生成box文件

进入tesseract安装目录,dos命令:

tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 -l chi_sim batch.nochop makebox

4)打开校验工具,训练文字

dos命令:

tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 nobatch box.train

unicharset_extractor mjorcen.normal.exp0.box

5)新建一个font_properties文件

dos命令:echo normal 0 0 0 0 0 >fileName_properties

6) 生成语言包

dos命令:

shapeclustering -F font_properties -U unicharset mjorcen.normal.exp0.tr

mftraining -F font_properties -U unicharset -O unicharset mjorcen.normal.exp0.tr

cntraining mjorcen.normal.exp0.tr

将生成的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上normal. 方便合成

combine_tessdata normal.

最后得到:

猜你喜欢

转载自blog.csdn.net/weixin_37794901/article/details/83501160

Tesseract-OCR识别中文之---训练自定义字库生成语言包

Tesseract-OCR识别中文与训练字库实例

Tesseract-OCR识别中文与训练字库

Tesseract-OCR识别中文与训练字库实例（转）

###好#####Tesseract-OCR识别中文与训练字库实例

tesseract-ocr安装简体中文语言包

Tesseract-OCR-v5.0中文识别,训练自定义字库,提高图片的识别效果

Tesseract-OCR 字库训练

Tesseract-OCR识别中文与训练字库的使用方法

[Tesseract-OCR]训练字库

Tesseract-OCR 识别中文

OCR 训练中文语言包

Tesseract-OCR 中文识别（附上源码）

tesseract-ocr训练

Tesseract5.0 图像识别本地服务三【训练自定义字库,提高图片的识别效果】

使用Tesseract-OCR训练文字识别记录

Tesseract-OCR 字符识别---样本训练

Tesseract-OCR 简单的中文数字混合训练

tesseract-ocr的字库学习步骤(训练自己的文库)，关于ocr的对图片的解析,包括tesseract的安装（史上最全）

使用 tesseract-ocr生成训练库全部指令

验证码识别之Tesseract-OCR

图片文字OCR识别-tesseract-ocr

Laravel自定义错误提示语语言包

thinkphp自定义加载语言包

使用jTessBoxEditorFX训练Tesseract-OCR教程

Tesseract-OCR 训练教程（一）

Tesseract-OCR的简单使用与训练

tesseract-ocr训练数据步骤

tesseract-ocr 使用java进行识别

识别图片tesseract-ocr的配置

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)