Tesseract と OpenCV を使用したディープラーニングベースの OCR テキスト認識

  この記事では、深層学習ベースの OCR と、Tesseract および OpenCV と呼ばれるオープンソース ツールを使用して画像内のテキストを認識する方法について学びます。画像からテキストを抽出する方法は、光学式文字認識 (OCR) またはテキスト認識と呼ばれることもあります。

 Tesseract は、HP Labs によって開発された独自のソフトウェアです。2005 年に、HP はネバダ大学ラスベガス校と協力してオープンソース化しました。2006 年以来、Google と多くのオープンソース貢献者によって積極的に開発されてきました。

Tesseract は、多くの画像形式のサポートを開始し、徐々に多くのスクリプト (言語) を追加したバージョン 3.x で成熟しました。Tesseract 3.x は、従来のコンピューター ビジョン アルゴリズムに基づいています。過去数年にわたり、ディープラーニングベースの手法は、コンピュータビジョンの多くの分野において精度の点で従来の機械学習手法をはるかに上回りました。手書き認識はその顕著な例の 1 つです。したがって、Tesseract が深層学習に基づく認識エンジンを搭載するのは時間の問題でした。

バージョン 4 では、Tesseract は長短期記憶 (LSTM) に基づく認識エンジンを実装します。LSTM はリカレント ニューラル ネットワーク (RNN) です。

初心者向けのメモ: 単一の文字を含む画像を認識するには、通常、畳み込みニューラル ネットワーク (CNN) を使用します。任意の長さのテキストは一連の文字であり、そのような問題は RNN を使用して解決できます。RNN の一般的な形式は LSTM です。

Tesseract バージョン 4 には Tesseract 3 のレガシー OCR エンジンもありますが、LSTM エンジンがデフォルトのエンジンであり、この記事ではそれのみを使用します。

Tesseract ライブラリには、

Guess you like

Origin blog.csdn.net/tianqiquan/article/details/133281209