Tesseract-OCR 训练教程(二) 合并新的训练文件

在原有训练数据的基础上,如果有新的字符训练信息需要加入,所有数据重新校准一遍就累死人了。。。。

经研究找到实用合并方法(红色部分为示例,实际应为你自己生成的文件名):

在新的训练数据生成.box 和.tr文件后,

生成字符集 unicharset_extractor add.font.exp0.box new.font.exp0.box

合并训练数据(.tr)

mftraining -F font_properties -U unicharset -O added.unicharset add.font.exp0.tr new.font.exp0.tr

聚合所有的tr文件

cntraining add.font.exp0.tr new.font.exp0.tr 

重命名文件,我把unicharset, inttemp, normproto, pfftable ,shapetable这几个文件加了前缀added.(注:added.只是我给合成的字典的命名,个人随意)

合并所有文件,生成一个大的资库文件。

命令:combine_tessdata added.

扫描二维码关注公众号,回复: 1701623 查看本文章

猜你喜欢

转载自www.cnblogs.com/password1/p/9213908.html