OCR研究ノート(3)テッセラクト研究
テセラクト入門
Tesseractは、HPのリリース後にGoogleによって維持されているオープンソースのテキスト認識プロジェクトです。Tesseractv4から、テキスト認識用のディープニューラルネットワークLSTMのサポートを発表しました。
win10でのtessercatのインストール
(0)私のpythonバージョンは3.6.5です
(1)ダウンロードリンク:https
:
//digi.bib.uni-mannheim.de/tesseract/私が選択したバージョンは次のとおりです:ここのバージョンは後でtessorocrまたはpytesseractでインストールする必要があります一致する。
ラダーなしでのダウンロードは遅くなるか失敗するため、インストール中にダウンローダの内容を確認しないでください。
(2)言語パックはGitHubからダウンロードできます。https://github.com/tesseract-ocr/tessdata
中国語の言語パックを選択し
、ダウンロードしたファイルをTesseract-OCRディレクトリの下のtessdataフォルダーにコピーします。 、およびtessdateフォルダーをpythonインストールディレクトリにコピーします。
(3)
参照ブログによってここに環境変数を追加します。ブロガーは環境変数参照ブログを非常に明確に説明します
pytesseractまたはtesserocrのインストール
:(1)teseerocrパッケージ、インストールプロセスがあり、ダウンロードtesserocr-2.2.2-cp36-cp36m-win_amd64.whl
にgithubのとCMDとそれをインストールします。
コード:
import tesserocr
from PIL import Image
image = Image.open(r'F:\download\blueman00-text-detection-ctpn-master\text-detection-ctpn\ctpn\data\demo\010.png')
image_vert=tesserocr.image_to_text(image)
print(image_vert)
入力は次のとおりです。
出力は次のとおりです。
(2)pycharm
に直接インストールしたpytesseractのインストール
コード:
import pytesseract
from PIL import Image
image = Image.open(r'F:\download\blueman00-text-detection-ctpn-master\text-detection-ctpn\ctpn\data\demo\010.png')
image_vert=pytesseract.image_to_string(image)
print(image_vert)