アンドリュー・ウ「機械学習」コースの概要(18)_ OCR写真

18.1問題は、フローチャートを説明しました

(1)画像の文字認識は、与えられた画像から文字を識別することです。

(2)プロセスであって:

1.テキスト検出

2.文字セグメンテーションは(今のセグメンテーションを必要としません)

3.文字の分類

スライディングウィンドウ18.2

歩行者検出、スライディングウィンドウは、最初のトレーニング入力の固定サイズは、歩行者のネットワークか否かを判断し、ネットワークに供給されるイメージ画像の大きさに切断され、その後、プロセスを繰り返し、トリミング領域を移動し続けます、知っている最後にクリップし、そうで作物をスケーリングし、その後、ネットワークを入力するスケーリング画像にカットし、そして。

以下に示すように、まず、同一の文字認識のためのスライディングウィンドウ、文字以外の文字の区別を行うために、次に適切拡張文字領域、重複領域は、次いで、合わせアスペクト比(すなわち長さよりも大きい高さ)に従ってフィルタリングされます。

次のようにテキストが設定され、一般的なトレーニングモデルは、データを分割されています。

単一の文字を分割した後、ニューラルネットワークを使用して、サポートベクターマシンやロジスティック回帰分類器訓練することができます。

18.3データと手動大量のデータを取得します

(1)ランダムなバックグラウンドをフォローする例を作成して追加し、インターネットからフォントをダウンロードしてください。

既存のデータの回転、歪み、ボケなどの新たなデータを生成する(2)使用。

データのメソッドの詳細については:

マニュアルデータの合成(1)。

(2)手動によるコレクション、マークデータ。

(3)すべてのパケット。

18.4上限:パイプラインの一部の横を行うには

プロセスは、正しい文字が入力として検出フルテキストセグメンテーションを提供する場合、72%正しいされており、以下、以下、システムを検出するのは難しい作業するテキストで説明89%の精度を向上することが見出されました。

より多くの労力を要し、この段階で大きな指示を持ち上げる場合は、すべてのステップは、多くの改善をもたらす場合は、次の表では、完全に正しいです。まず、テキスト検出の表は、文字認識、手間がかかるし、テキストセグメンテーションはよくやっています。

おすすめ

転載: www.cnblogs.com/henuliulei/p/11290260.html