OCR之R ^ 2AM(野生でOCRのための注意モデルと再帰再発ネット)

私は新聞を読んでいくつかのアイデアを書き留めます。

OCRのための注意のモデリングと再帰再発ネットワイルドでは、 モデルの3つのコンポーネント、すなわち、再帰的CNN、RNN(リカレントニューラルネット持って仕事)、ソフト注意モデルを。図に示すように。エンコーディングのための再帰的CNNのイメージ(画像特徴抽出)、言語の文字レベルのためのRNNモデル、画像の特徴をより良く使用上の注意の焦点。
同時に、このモデルは、辞書に基づくものではありません。

ここに画像を挿入説明
OCRのための注意モデルと再帰リカレントネット野生では、 モデルは、単一の単語予測画像をトリミングします。

CNN層

CNNは、3が最大と関係の下のテキストを予測する能力を強化するためのアプローチがあります:
最初の大規模なカーネルサイズ、またはより深いネットワーク、ドメイン応答の増加の気持ちを使用することです。
第二は、再帰これを使用することである。
第三は、再発の使用です。

本稿では、エラー信号に比べて再帰CNN再発用語は、直接逆伝播を防ぐことができ、おそらくので、その使用recursvieより高いパフォーマンスを発見しました。

初期層間フィードforword量及び層内再帰的重みに再帰CNNに分割し、

RNN層

2つの最高の因数分解、RNNは、文字レベルのモデルに焦点を当てた第一層は、RNNは、音声と映像の第二関節統計的特性に焦点を当てました。RNN効果はファクタリングよりも良いではありません。

本論文では、文字の短い、ない非常に長い文字認識の周りに8つの文字を識別するのでモデルは、LSTMを使用していません。LSTMであまりにも多くのユーティリティを持ち上げないであろう。

アテンション・モデリング

注意メカニズムは、モデルは、入力機能の最も重要な部分に集中することができます。
注意ハード注意とソフトの注意に分けることができます。離散位置のシリーズ、およびソフト注意endtoend標準のバックプロパゲーショントレーニングを学ぶため、主にハード注意。
真ん中の2つの層に注意RNN。

概要は、このモデルはこれだけ、個々の単語を認識し、CTCを使用していません。しかし、それは長い間、最後の、複数の単語を文字を識別するのにCTCと組み合わせることができます。このモデルCRNN等、CRNNはCNN + RNN(LSTM)+ CTCあります。

公開された21元の記事 ウォン称賛18 ビュー1451

おすすめ

転載: blog.csdn.net/zephyr_wang/article/details/104770565