ダウンロードすると、はじめにオープンソースたTesseract OCRソフト

ダウンロード

たTesseract-OCR-セットアップ-3.05.01.exe
注:選択された言語のインストールが識別されます

たTesseract-4.0-と-LSTM#400-α-のための窓

Windowsが実行されたTesseractを

1. tesseractコマンドラインOCRプログラム、端末の開口部(キーの組み合わせ勝利+ R)、入力されています。

tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]

imagename
The name of the input image. Most image file formats (anything readable by 
Leptonica) are supported.(输入图片的文件名,可以是Leptonica支持的各种图片格式)

outputbase
The basename of the output file (to which the appropriate extension will be 
appended). By default the output will be named outbase.txt.(输出文件的文件名,
默认输出文件是txt格式的,还可以指定Hocr和pdf格式)

識別:栗2. myscan.png画像を、認識結果が格納されout.txt、コマンドライン:

tesseract myscan.png out

特定の言語、特定の認識簡体中国語と英語の指定3 -l chi_sim+eng、コマンドラインを:

tesseract myscan.png out -l chi_sim+eng

4.出力ファイルフォーマット、に結合されたコマンドラインのファイル形式を指定し、HOCR PDF形式を指定することができ、HOCRは、
用語の数は、その認識のそれぞれのパラメータの後に説明するが、HTMLファイル。たTesseract 3.03以上のバージョンのみ
サポートPDF形式、コマンドライン:

HOCR:tesseract myscan.png out hocr
PDF:tesseract myscan.png out pdf

Githubの参照

たTesseract実行
パラメータ説明

これは、スイッチ:https://blog.csdn.net/cylj102908/article/details/78760777

公開された117元の記事 ウォンの賞賛4 ビュー80000 +

おすすめ

転載: blog.csdn.net/qq_36266449/article/details/81664587