たTesseract-OCRフォントトレーニング

免責事項:この記事はブロガーオリジナル記事です、続くBY-SAのCC 4.0を著作権契約、複製、元のソースのリンクと、この文を添付してください。
このリンク: https://blog.csdn.net/wsp_1138886114/article/details/84098903

まず、環境を設定

インストールしたTesseract OCR-は、ダウンロード漢字の識別が付属しています!しかし、実際の使用では、無効識別するための
認識効果を改善するために、必要なトレーニングコンテンツ識別フォントに応じて決定!
フォントのトレーニングは、最良たTesseract OCR-のインストールディレクトリで行われます。

1.ダウンロードしたTesseract-OCRエンジン:使用の詳細、クリックしてください

2、jTessBoxEditorダウンロード:HTTPS://www.softpedia.com/get/Multimedia/Graphic/Graphic-Others/jTessBoxEditor.shtml
https://github.com/tesseract-ocr/tesseract/wiki/AddOns
それともます。https:/ /dl.pconline.com.cn/download/1060986.html

3、chi_sim.traindataフォントをダウンロードしてください。中国は認識しなければなりません。ただ素晴らしいの後、(あなたがインストールすることができます)内側たTesseract OCR-プロジェクトtessdataフォルダを置きます。

jTessBoxEditorと第二に、自動トレーニング3500の一般的に使用される漢字

次のように最初のステップは、要約されます。

第三に、トレーニングフォント

サンプル画像と準備ができて最初のトレーニング。

  1. インストールディレクトリのCDのプログラムファイル\たTesseract OCR-のフォルダに-たTesseract OCR

  2. オープンjTessBoxEditor、[ツール] - >、TIFF、[開く]ダイアログボックスをマージトレーニングサンプルフォルダを選択して、トレーニングサンプル画像に関与していることがすべてを選択し、ダイアログボックスを注意して、「ファイルの種類」PNGを選択してください

  3. 次に、[開く]ダイアログボックスで、「chi_my.font.exp0.tif」を入力し、フォーマットのTIFFがあります。あなた自身の定義に変更することができますChi_my。それはchi_my.font.exp0.tifファイルを生成します。

  4. 世代「chi_my.font.exp0.box」ファイル;コマンドラインを実行します
    tesseract chi_my.font.exp0.tif chi_my.font.exp0 -l chi_sim batch.nochop makebox
    tesseract chi_my.font.exp0.tif chi_my.font.exp0 -l eng batch.nochop makebox

  5. chi_my.font.exp0.tifファイルを選択し、>オープン - オープンjTessBoxEditor、ボックスエディタをクリックします。

  6. 調整の誤認。特に、画像、文字、状況の比較的多数。
    注アイコンボタンを設定した後に変更charaterクリックインターフェイス上で保存し、保存ボタンをクリックする必要性を識別します。

  7. フォントファイルを作成しています
    0 0 0 0 0>エコーフォント font_propertiesは
    「font_properties」ファイルを生成しますが。表示ファイルのサイズは0バイトです。実際には、 ' "フォント0 0 0 0 0ある "' コンテンツ。

  8. トレーニング
    tesseract chi_my.font.exp0.tif chi_my.font.exp0 -l eng -psm 7 nobatch box.train

  9. 文字セットファイルを生成
    chi_my.font.exp0.boxのunicharset_extractor
    世代「unicharset」ファイルを。

  10. シェイプファイル、収集された文字のプロファイル、4つのファイルの文字プロファイルの正規化を生成します。

    • コマンドshapeclustering -F font_properties -U unicharset -O langyp.unicharset langyp.fontyp.exp0.tr
      世代"shapetable" "inttemp" "pffmtable " ファイル。
    • コマンドmftraining -F font_properties -U unicharset -O langyp.unicharset langyp.fontyp.exp0.tr
      世代「pinyin.unicharset」ファイル。
    • コマンドcntraining langyp.fontyp.exp0.tr
      世代「normproto」ファイル。
  11. 名前の変更、トレーニングファイルをマージ
    langyp.normprotoリネームnormproto
    名前変更がlangyp.inttemp inttemp
    改名pffmtable langyp.pffmtable
    リネームunicharsetがlangyp.unicharset
    shapetable langyp.shapetable名前変更を
    トレーニングファイル、マージ
    combine_tessdata langypを。
    langyp.traineddataファイルを生成します。

  12. 得られた「langyp.traineddata」言語パックファイルがたTesseract tessdataディレクトリにコピーされ、
    あなたは中国の文字認識のためにそれを使用することができます。

实例:
G:\プログラムファイル(x86の)\ jTessBoxEditorFXピンイン\サンプル\> unicharset_extractor pinyin.font.exp0.box
抽出unicharset pinyin.font.exp0.boxから
unicharsetファイル./unicharsetを書きました。
G:\プログラムファイル(x86の)\ jTessBoxEditorFX \サンプル\ピンイン> shapeclustering -F font_properties -U unicharset -O pinyin.unicharset pinyin.font.exp0.tr
読むpinyin.font.exp0.tr ...
G:\プログラムファイル(x86の)\ jTessBoxEditorFX \サンプル\ピンイン> mftraining -F font_properties -U unicharset -O pinyin.unicharset pinyin.font.exp0.tr
27面の形状の形状テーブルshapetableを読む
G:\プログラムファイル(x86の)\ jTessBoxEditorFX \サンプル\ピンイン> cntraining pinyin.font.exp0.tr
読書pinyin.font.exp0.tr ...
クラスタリング...

G:\プログラムファイル(x86の)\ jTessBoxEditorFX \サンプル\ピンイン> combine_tessdataピンイン。
tessdataファイルを結合

謝辞
https://www.cnblogs.com/zhongtang/p/5555950.html
自動訓練3500の一般的に使用される漢字:HTTPS://blog.csdn.net/woaipangruimao/article/details/78741022
https://blog.csdn.net / duanshao / Articleこの記事だった/詳細/ 79835651
https://blog.csdn.net/woaipangruimao/article/details/78685727
http://www.cnblogs.com/wzben/p/5930538.html

https://blog.csdn.net/sylsjane/article/details/83751297

おすすめ

転載: blog.csdn.net/wsp_1138886114/article/details/84098903