Tesseract-OCR 简单的中文数字混合训练 - 代码天地

Tesseract-OCR 简单的中文数字混合训练

企业开发 2018-08-01 16:09:51 阅读次数: 0

提示，我当前Tesseract-OCR 版本是 4.0 ，jTessBoxEditorFX是2.0.1

1.下载Tesseract-OCR 链接

2.下载jTessBoxEditorFX 链接，如果中文一定要选择FX版本（基于Java，需安装JDK）

3.Tesseract-data目录 Github，下载下来将需要的文件放到Tesseract-OCR安装目录下的tessdata目录下

4.将Tesseract-OCR目录配置到环境变量（不添加也行，比较麻烦）

中文训练步骤

1.创建一个png文件（其他格式也行）

2.打开jTessBoxEditorFX，Tools -- Merge TIFF选择文件，注意选择格式，输入文件名 mychi.myfont.exp0.tif，点击确定，图片目录下会出现一个tif格式文件

3.图片目录下打开命令行，输入 tesseract mychi.myfont.exp0.tif mychi.myfont.exp0 -l chi_sim batch.nochop makebox，会生成一个box文件

4.使用jTessBoxEditorFX打开box文件（打开tif会默认打开box文件），Box Editor -- Open ，选择 mychi.myfont.exp0.tif，修改其中错误的识别字符，可以调整识别框的大小

5.继续使用命令行工具，输入 tesseract mychi.myfont.exp0.tif mychi.myfont.exp0 nobatch box.train，生成tr文件

6.输入 unicharset_extractor mychi.myfont.exp0.box，生成unicharset文件并重命名为mychi.unicharset

7.输入 echo myfont 0 0 0 0 0>font_properties,生成文件

8.输入 mftraining -F font_properties -U mychi.unicharset -O mychi.unicharset mychi.myfont.exp0.tr和

cntraining mychi.myfont.exp0.tr,共生成四个文件

9.输入 combine_tessdata mychi.生成mychi.traineddata

10.测试，将mychi。traineddata复制到Tesseract-OCR目录下的tessdata，输入 tesseract test.png result -l mychi,完成

猜你喜欢

转载自blog.csdn.net/majiahuiCSDN/article/details/81312026

Tesseract-OCR 简单的中文数字混合训练

tesseract-ocr训练

Tesseract-OCR 字库训练

Tesseract-OCR 识别中文

Tesseract-OCR的简单使用与训练

使用jTessBoxEditorFX训练Tesseract-OCR教程

Tesseract-OCR 训练教程（一）

[Tesseract-OCR]训练字库

tesseract-ocr训练数据步骤

Tesseract-OCR 中文识别（附上源码）

Tesseract-OCR命令及WPF简单使用

Tesseract-OCR识别中文与训练字库实例

Tesseract-OCR识别中文与训练字库

Tesseract-OCR识别中文与训练字库实例（转）

###好#####Tesseract-OCR识别中文与训练字库实例

Tesseract-OCR 训练教程（二）合并新的训练文件

使用Tesseract-OCR训练文字识别记录

使用 tesseract-ocr生成训练库全部指令

Tesseract-OCR 字符识别---样本训练

Ubuntu编译/安装/训练/运行tesseract-ocr

Tesseract-OCR样本训练方法详细

Tesseract-OCR LSTM二次训练遇到的坑

tesseract-ocr安装简体中文语言包

【opencv 学习】使用tesseract-ocr机芯数字识别

tesseract-ocr的字库学习步骤(训练自己的文库)，关于ocr的对图片的解析,包括tesseract的安装（史上最全）

Tesseract-OCR识别中文与训练字库的使用方法

Tesseract-OCR识别中文之---训练自定义字库生成语言包

tesseract-ocr字符识别，安装/测试/训练问题/解决方案

JAVA验证码识别：基于jTessBoxEditorFX和Tesseract-OCR训练样本

Python爬虫笔记【一】模拟用户访问之Tesseract-ocr验证码训练（5）

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)