【技術白書】第1章:深層学習に基づくテキスト検出・認識の技術背景

1. 技術的背景

1.1 技術的背景 -テキスト検出と認識と

OCRの正式名称はOptical Character Recognition、つまり光学式文字認識で、1929年にドイツの科学者タウシェックによって最初に提案され、紙の文書から印刷された文字を認識することと定義されています。狭義の現在の OCR は、入力されたスキャンされたドキュメント画像を分析および処理して、画像内のテキスト情報を識別することを指します。OCR 技術の発展に伴い、人々は文書や本のテキストだけでは満足せず、現実世界のシーンのテキストにターゲットを移し始めました。これは、シーン テキスト認識 (STR) と呼ばれます。

したがって、現在のOCRは一般に、従来の文書画像認識およびシーンテキスト認識技術を含む、すべての画像テキスト検出および認識技術を指します。自然シーンのテキスト抽出技術は、自然シーンの画像における従来のOCR技術の拡張と拡張であり、幅広いアプリケーションの見通しを持っています。自然シーンのテキストは、主にナンバー プレート、看板、道路標識、看板などのシーンに表示されます。従来のスキャンされた画像テキストとは異なり、自然シーンのテキストは、豊富な表現形式、複雑な画像背景、および画像撮影によって導入された干渉要因により、従来のスキャンされたドキュメント画像よりも分析および処理がはるかに困難です。

自然のシーンにおけるテキストの多様性と可変性: 文書内のスクリプトとは異なり、自然なシーンのテキストはより高い多様性と可変性を示します。たとえば、シーン テキストのインスタンスは、さまざまな言語、色、フォント、サイズ、向き、および形状を使用できます。さらに、シーン テキストの縦横比とレイアウトが大幅に異なる場合があります。これらすべての変更により、自然シーンでのテキストの検出と認識のアルゴリズムを設計する際に課題が生じます。

背景の複雑さと気晴らし。自然の風景の背景はほとんど予測できません。テキストに非常によく似たパターン (葉、交通標識、レンガ、窓、フェンスなど) や、異物による遮蔽があり、混乱やエラーにつながる可能性があります。

不完全な画像条件: 制御されていない条件では、テキスト画像とビデオの品質は保証できません。つまり、不適切な撮影条件では、テキスト インスタンスが解像度が低くなり、撮影距離や角度が不適切なために大きく歪んでいる、焦点が合っていないか手ぶれが原因でぼやけている、光レベルが低いためにノイズが多い、またはハイライトまたはシャドウが発生している可能性があります。破壊。

通常のドキュメント認識は、一般的にシーン テキスト認識よりも難しくありませんが、特定の細分化には多くの課題があります。たとえば、対象のスキャン対象の請求書は、スキャナーの解像度が低い、紙やインクの品質が低いなどの理由で低品質であることがよくあります。同時に、フォント サイズが小さすぎ、干渉するテキストの存在も問題です。考慮しなければならない問題。

テキスト検出および認識テクノロジには、幅広いアプリケーション シナリオがあり、大きな商業的価値があります。主要なインターネット企業も、名刺、速達請求書、ID カード、銀行カード、ナンバー プレート、道路標識、広告板、商品パッケージ バッグ、ビジネス ライセンス、テスト ペーパー、請求書や領収書など

シーン テキスト抽出技術は、自然シーン テキスト検出と自然シーン テキスト認識を含む 2 つの異なるサブタスクに分けることができます。自然シーンのテキスト検出は、自然シーン内のテキストの位置を正確に特定することです。自然シーンのテキスト認識は、自然シーンの画像内のテキスト情報を識別することです。エンドツーエンドの自然シーンのテキスト検出と認識は、検出と認識を組み合わせてcomplete プロセスは、テキスト位置の特定に成功しながら、対応するテキスト コンテンツを識別します。近年、深層学習技術の急速な発展に伴い、国内外の学者は、さまざまな問題や課題に対して、自然シーンのテキスト検出、認識、およびエンドツーエンドの自然シーンのテキスト検出と認識のタスクに対応するソリューションを提案しようとしています。 . 、自然シーンのテキスト抽出と理解技術の開発を大いに促進します。手動で設計された機能に依存する従来の自然シーンのテキスト検出および認識アルゴリズムと比較して、深層学習に基づく方法には次の特徴があります。

1) 高度な自動化。深層学習に基づく自然シーンのテキスト検出および認識アルゴリズムは、テキスト画像の高度な視覚的特徴を自動的にキャプチャできます。これにより、研究者や関連する専門家は、手動で特徴を設計し、特徴を検証するという複雑なプロセスから解放されるだけでなく、研究者。

2) 検出と認識のパフォーマンスが効率的です。深層学習に基づく自然シーンのテキスト検出および認識アルゴリズムの認識パフォーマンスは、手作業で設計された機能に基づく従来のテキスト認識アルゴリズムの認識パフォーマンスよりも優れています。

3) 汎化性能が優れている。深層学習に基づく自然シーンのテキスト検出および認識アルゴリズムは、優れた一般化パフォーマンスを備えており、同様の視覚タスクに簡単に適用できます。

近年、深層学習技術の急速な発展に伴い、OCR 技術はテキスト特徴トレーニング モデルを手動で設計することから、ディープ ニューラル ネットワーク モデルを使用するように徐々に進化し、テキスト認識効果も大幅に改善されました。深層学習に基づく方法は、独立した 2 段階の方法と、エンドツーエンドの 1 段階のテキスト認識方法に分けることができます。次のセクションでは、独立した 2 段階のテキスト検出とテキスト認識方法、およびエンドツーエンドの 1 段階のテキスト検出と認識方法を紹介します。

参照:

Chongyu Liu、Xiaoxue Chen、Canjie Luo、Lianwen Jin、Yang Xue、Yuliang Liu. 2021. 自然シーンにおけるテキスト検出と認識のためのディープ ラーニング手法. Chinese Journal of Image and Graphics, 26(06):1330-1367

Zobeir Raisi,Mohamed A. Naiel,Paul Fieguth,Steven Wardell,John Zelek,「野生のテキスト検出と認識: レビュー」 arXiv:2006.04305v2 [cs.CV] 2020 年 6 月 30 日

Shangbang Long 、Xin He、Cong Yao、シーン テキストの検出と認識: ディープ ラーニング エリア arXiv:1811.04256v5 [cs.CV] 2020 年 8 月 9 日

おすすめ

転載: blog.csdn.net/INTSIG/article/details/126707100