OCR研究ノート(3)テッセラクト研究

OCR研究ノート(3)テッセラクト研究

テセラクト入門

Tesseractは、HPのリリース後にGoogleによって維持されているオープンソースのテキスト認識プロジェクトです。Tesseractv4から、テキスト認識用のディープニューラルネットワークLSTMのサポートを発表しました。

win10でのtessercatのインストール

(0)私のpythonバージョンは3.6.5です
(1)ダウンロードリンクhttps
ここに写真の説明を挿入
//digi.bib.uni-mannheim.de/tesseract/私が選択したバージョンは次のとおりです:ここのバージョン後でtessorocrまたはpytesseractでインストールする必要があります一致する。
ラダーなしでのダウンロードは遅くなるか失敗するため、インストール中にダウンローダの内容を確認しないでください。
(2)言語パックはGitHubからダウンロードできます。https//github.com/tesseract-ocr/tessdata
中国語の言語パックを選択し
ここに写真の説明を挿入
、ダウンロードしたファイルをTesseract-OCRディレクトリの下のtessdataフォルダーにコピーします。 、およびtessdateフォルダーをpythonインストールディレクトリにコピーします。
(3)
参照ブログによってここに環境変数を追加します。ブロガーは環境変数参照ブログを非常に明確に説明します

pytesseractまたはtesserocrのインストール

:(1)teseerocrパッケージ、インストールプロセスがあり、ダウンロードtesserocr-2.2.2-cp36-cp36m-win_amd64.whl
githubのとCMDとそれをインストールします。
コード:

import tesserocr
from PIL import Image
image = Image.open(r'F:\download\blueman00-text-detection-ctpn-master\text-detection-ctpn\ctpn\data\demo\010.png')
image_vert=tesserocr.image_to_text(image)
print(image_vert)

入力は次のとおりです。ここに写真の説明を挿入
出力は次のとおりです。
ここに写真の説明を挿入
(2)pycharm
に直接インストールしたpytesseractのインストール
ここに写真の説明を挿入
コード:

import pytesseract
from PIL import Image
image = Image.open(r'F:\download\blueman00-text-detection-ctpn-master\text-detection-ctpn\ctpn\data\demo\010.png')
image_vert=pytesseract.image_to_string(image)
print(image_vert)

おすすめ

転載: blog.csdn.net/dbdxwyl/article/details/108330700