ocr tesseract 3.4训练记录

安装tesseract

brew uninstall tesseract
brew install --with-training-tools tesseract

构建字符集

  • 合并为tif
    tools-Merge Tiff

保存为num.myfont.exp0.tif

  • 生成box

tesseract num.myfont.exp0.tif num.myfont.exp0 -l eng -psm 7 batch.nochop makebox
  • 使用jTessBoxEditor修改box文件(这个文件也可以手动改)

  • box文件如下,可以看出是第几页是什么字符,坐标大小是什么

  • A 340 43 359 68 0
    B 363 43 379 68 0
    B 384 43 400 68 0
    D 405 43 420 68 0
    E 426 43 440 68 0
    F 445 43 460 68 0
    G 463 43 479 68 0
    H 483 43 500 68 0
    I 506 43 510 68 0
    J 514 43 529 68 0
    K 534 43 550 68 0
    L 554 43 568 68 0
    M 572 43 593 68 0
    N 598 43 616 68 0
    O 621 43 637 68 0
    P 643 43 659 68 0
    Q 662 38 679 68 0
    R 684 43 702 68 0
    S 706 43 722 68 0
    T 724 43 742 68 0
    U 745 43 761 68 0
    V 765 43 783 68 0
    W 785 43 811 68 0
    X 814 43 831 68 0
    Y 833 43 851 68 0
    Z 853 43 870 68 0
    1 872 43 883 68 0
    2 887 43 901 68 0
    3 905 43 919 68 0
    4 922 43 940 68 0
    5 942 43 957 68 0
    6 961 43 975 68 0
    7 978 43 993 68 0
    8 996 43 1011 68 0
    9 1015 43 1030 68 0
    0 1034 43 1049 68 0
    a 461 44 476 62 1
    b 481 44 496 69 1
    c 500 45 515 62 1
    d 518 44 533 69 1
    e 538 44 553 62 1
    f 556 45 568 69 1
    g 571 38 586 62 1
    h 591 45 605 69 1
    i 610 45 615 69 1
    j 617 38 625 69 1
    k 630 45 645 69 1
    l 649 45 654 69 1
    m 659 45 684 62 1
    n 689 45 703 62 1
    o 708 45 723 62 1
    p 728 38 743 62 1
    q 747 38 762 62 1
    r 768 45 778 62 1
    s 780 45 795 62 1
    t 797 45 808 67 1
    u 812 44 827 62 1
    v 830 45 846 62 1
    w 849 45 870 62 1
    x 873 45 888 62 1
    y 890 38 906 62 1
    z 909 45 923 62 1
    @ 414 37 430 62 2
    # 443 38 466 62 2
    $ 479 34 494 65 2
    % 507 35 540 62 2
    ^ 551 49 566 62 2
    & 579 38 599 62 2
    * 608 49 623 62 2
    _ 633 36 648 38 2
    - 659 46 668 50 2
    = 680 42 693 52 2
    + 705 39 721 55 2
    \ 733 33 746 62 2
    / 758 33 772 62 2
    < 784 37 801 56 2
    > 815 37 832 56 2
    " 844 52 859 62 2
    | 871 30 874 67 2
    ? 888 37 902 62 2
    ! 916 37 921 62 2
    ` 935 57 942 63 2
    ~ 957 44 973 51 2
    [ 986 33 994 67 2
    ] 1002 33 1011 67 2
    ( 1025 30 1033 66 2
    ) 1041 30 1049 66 2
     

  • 生产font_properties

echo myfont 0 0 0 0 0 >font_properties
  • 生成训练文件

tesseract num.myfont.exp0.tif num.myfont.exp0 -l eng -psm 7 nobatch box.train
  • 生成字符集文件

unicharset_extractor num.myfont.exp0.box
  • 生成shape

shapeclustering -F font_properties -U unicharset -O myfont.unicharset num.myfont.exp0.tr
  • 聚合字符特征文件

mftraining -F font_properties -U unicharset -O myfont.unicharset num.myfont.exp0.tr
  • 正常化

cntraining num.myfont.exp0.tr
  • 合并训练文件

cp normproto myfont.normproto
cp inttemp myfont.inttemp
cp pffmtable myfont.pffmtable
cp unicharset myfont.unicharset
cp shapetable myfont.shapetable
combine_tessdata myfont.

新增语言

brew list tesseract

查看tessdata位置

cp myfont.traineddata /usr/local/Cellar/tesseract/3.04.01_2/share/tessdata/
tesseract --list-langs

测试

tesseract 9606.tif output -l myfont -psm 7

doc

总结:

tesseract 4 以下的版本就是修改过后识别率也不是很高,但cnn 识别很好但是慢的很。有空弄一下4.0的lstm 看看效果。

猜你喜欢

转载自blog.csdn.net/yangzm/article/details/81903232