Tesseract-OCR 训练教程(一)

实际应用中[font]替换为你自己的字体名,比如newfont、hehe等

1.根据tif生成box文件(位置宽高等信息)
tesseract [font].font.exp0.tif [font].font.exp0 batch.nochop makebox
2.jTessBoxEditor 调整字体参数
3.定义字符配置文件
echo [font] 0 0 0 0 0>font_properties
font 0 0 0 0 0

4.从所有文件中提取字符,生成字符集文件
unicharset_extractor.exe [font].font.exp0.box

5.生成训练文件(.tr)
tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 nobatch box.train
6.生成字体特征文件
mftraining -F font_properties -U unicharset -O [font].unicharset [font].font.exp0.tr

7.聚合tr文件
cntraining.exe [font].font.exp0.tr

8.重命名文件
rename normproto [font].normproto
rename inttemp [font].inttemp
rename pffmtable [font].pffmtable
rename shapetable [font].shapetable

9.合并所有文件,生成一个大的资库文件
combine_tessdata.exe [font].

猜你喜欢

转载自www.cnblogs.com/password1/p/9213796.html