たTesseract OCR-は中国の認識、およびオープンソースをサポートし、トレーニングツール、低コストの選択肢の急速な発展の完全な範囲を提供します。
Tess4Jは、JavaのPCで使用されたTesseract
1985年に初めて導入されたTesseract OCRエンジンは、HP Labsが開発されました1995年3に業界で最も正確なOCR認識エンジン午後の一つとなっています。しかし、HPはすぐにほこりから、たTesseract OCRも事業を放棄することを決めました。
2005年には、たTesseractは、情報技術のネバダ研究所によって得られた、とたTesseractを改善するために、Googleに頼る - 数年後、HPはそのたTesseractは、オープンソースソフトウェア業界への貢献として、それは新しい生命煥を再せ棚上げされることを実現しましたバグをなくす、最適化。
たTesseractは現在、オープンソースプロジェクト、Googleプロジェクト、そのとしてリリースされ、ここでプロジェクトのホームページ。
<! - https://mvnrepository.com/artifact/net.sourceforge.tess4j/tess4j - > < 依存> < groupIdを> net.sourceforge.tess4j </ groupIdを> < たartifactId > tess4j </ たartifactId > < バージョン> 3.4.0 </ バージョン> </ 依存関係>
コードの開発:
画像ファイルは、ファイル= 新しい新しいファイル(「INPUTでdir / shuzi.png」;) たTesseractのtessreact = 新新たTesseract(); // に設定トレーニングセットトレーニング指定する必要https://github.com/tesseract-ocr/tessdata ダウンロードを。 tessreact.setDatapath(「E:\\ itcast tess4j \\ \\ \\ ENV tessdata」); // デフォルトはあなたが個別に設定する必要がなければ、中国の識別を英語を特定することであることに注意してください。 tessreact.setLanguage( "chi_sim" ); 試み{ 文字列結果 = tessreact.doOCR(画像ファイル) のSystem.out.println(結果); } キャッチ(TesseractException E){ System.err.println(e.getMessage())。 }