深層学習に基づくテキスト認識 [研究レビュー]


深層学習に基づく中国語と英語のテキスト認識

1 はじめに

1.1 研究の背景と意義

  言葉は人間が情報を伝達する最も一般的な方法の 1 つです。デジタル時代では、印刷された文字や手書きの文字を処理可能な電子形式に変換することが非常に重要です。従来のルールベースの方法は、テキストの形状や外観が大きく異なるため、複雑なテキスト認識タスクのパフォーマンスが不十分です。従来のテキスト認識とは、ディープラーニングが登場する前に使用されていた従来のコンピューター ビジョンとパターン認識手法に基づいたテキスト認識技術を指します。従来のテキスト認識のプロセスは図に示されています。
ここに画像の説明を挿入
  従来のテキスト認識手法では、研究者は主に画像から効果的な特徴を抽出してテキストを表現する方法に焦点を当てていました。これらの特徴には、形状、テクスチャ、エッジ、シャドウなどが含まれます。SIFT、HOG、SURF などの従来の特徴抽出方法は、テキスト認識で広く使用されています。第 2 に、文字認識では適切な特徴分類子を使用して、抽出された特徴を既知の単語カテゴリと照合します。従来の分類器には、サポート ベクター マシン (SVM)、最近傍 (KNN)、およびランダム フォレストが含まれます。従来のテキスト認識研究では通常、モデルのトレーニングと評価に大量のラベル付きサンプルが必要であり、研究者はさまざまなフォント、サイズ、向き、品質のテキスト画像を含むさまざまなテキスト データセットを構築および維持します。これらのデータセットに注釈を付けるには、通常、人間の関与が必要ですが、これは時間と労力のかかるプロセスです。従来のテキスト認識手法はある程度の成功を収めてきましたが、その限界により、ディープラーニングの出現により、研究の焦点は徐々にディープラーニングに基づく OCR 技術に移ってきました。ディープラーニングの導入により、テキスト認識のパフォーマンスが大幅に向上し、OCR システムがより正確で堅牢かつ柔軟になりました。深層学習テキスト認識のプロセスを図に示します.ここに画像の説明を挿入
  深層学習技術の急速な発展、特に畳み込みニューラル ネットワーク (CNN) とリカレント ニューラル ネットワーク (RNN) の出現により、深層学習に基づく手法は、さまざまな分野で大きな成功を収めています。テキスト認識タスク 目覚ましい進歩 ディープ ラーニング ベースのテキスト認識は、コンピューター ビジョンや自然言語処理における幅広い用途を持つ重要な研究分野です。テキスト認識は、印刷または手書きのテキストを編集可能および検索可能なデジタル形式に変換することを目的としています。
  テキスト認識は、スキャンされた文書の自動処理、銀行小切手の自動処理、デジタル ライブラリやアーカイブでの文書のアーカイブなど、現実の世界で幅広い用途に使用できます。深層学習ベースの手法は、テキスト翻訳や意味理解などの他のコンピューター ビジョンや自然言語処理タスクと組み合わせて、より複雑なアプリケーション シナリオを実現することもできます。以前は、従来の OCR 手法は通常、手作業で設計された特徴抽出と分類器に基づいており、そのパフォーマンスには限界がありました。ただし、深層学習モデルには、特徴表現を自動的に学習する機能があり、生の画像データから高レベルの特徴を抽出できるため、OCR システムの精度と堅牢性が向上します。ディープラーニングは光学式文字認識 (OCR) の分野で目覚ましい進歩を遂げました。OCR は、印刷または手書きのテキストを機械可読テキストに変換するテクノロジーです。文書の電子化、自動データ入力、自動運転、スマートオフィスなど、さまざまな分野で広く活用されています。ディープラーニング技術の導入により、OCR システムはさまざまなテキスト画像をより正確かつ効率的に処理できるようになり、情報処理や自動化タスクにとって非常に重要です。
  1. 精度の向上: 従来の OCR 手法は、複雑なシーン、低品質の画像、または手書きのテキストを処理する場合、うまく機能しないことがよくあります。深層学習モデルは、大規模なデータ トレーニングを通じてより豊富で堅牢な特徴表現を学習できるため、OCR システムの精度が向上します。
  2. 多言語および複数フォントの処理: グローバリゼーションの発展に伴い、多言語および複数フォントの処理が OCR システムの重要な要件になっています。深層学習モデルは、特徴抽出器を手動で設計することなく、エンドツーエンドの学習方法を通じて言語とフォントの特徴をデータから直接学習できるため、さまざまな言語やフォントに簡単に拡張できます。
  3. 手動介入の削減: 従来の OCR 手法は通常、機能設計とパラメータ調整をドメインの専門家に依存しています。深層学習モデルは、エンドツーエンド学習を通じて生データから特徴表現と分類器を自動的に学習できるため、手動介入の必要性が減り、システムの自動化が向上します。
  4. 処理速度の高速化: 深層学習モデルのトレーニングと推論は、並列コンピューティングを通じて GPU 上で効率的に実装できます。ネットワーク構造とアルゴリズムを最適化することで、OCR システムの処理速度をさらに向上させ、リアルタイムまたは高スループットのアプリケーション要件を満たすことができます。
  結論として、ディープラーニング OCR の研究は、高精度、多言語、多フォント、低コスト、高効率のテキスト認識システムを実現するための重要な技術的サポートを提供します。実際にその幅広い用途に活用することで、情報処理と自動化タスクの開発が促進され、さらなる利便性と利点がもたらされます。ディープラーニングに基づく文字認識の研究は重要な背景と意義を持っており、文字認識技術の開発を促進し、文字認識の精度と堅牢性を向上させ、実用化の可能性を高めます。

1.2 研究状況

  深層学習に基づくテキスト認識は、コンピューター ビジョンと自然言語処理の分野における重要な研究方向です。深層学習テクノロジーの継続的な開発により、深層学習ベースの手法はテキスト認識タスクにおいて目覚ましい進歩を遂げてきました。
  テキスト検出と位置決めの分野: Zhang et al. (2019) は、ターゲット検出とテキスト セグメンテーション技術を組み合わせて、効率的かつ正確なテキスト位置決めを実現する、深層学習に基づくマルチタスクのテキスト検出および位置決め方法を提案しました。Liu et al. (2020) は、リカレント ニューラル ネットワークに基づくマルチスケール テキスト検出方法を提案し、アテンション メカニズムとピラミッド特徴融合を導入することで、サイズが小さく回転したテキストの検出パフォーマンスを向上させました。EAST (Efficient and Accurate Scene Text detecting) 手法は、2017 年に Zhou らによって提案された手法で、完全畳み込みネットワーク構造を採用し、ピクセルレベルの予測によるテキスト検出を実現します。この方法は効率的かつ正確で、多方向および任意の形状のテキストを処理できます。TextBoxes は、2016 年に Liao らによって提案された畳み込みニューラル ネットワークに基づくテキスト検出手法です。マルチスケールの特徴マップと多方向のアンカー ボックスを使用してテキスト領域を検出し、優れた堅牢性と精度を備えています。CRAFT (文字領域認識によるテキスト検出) 手法は、2019 年に Baek らによって提案されました。この手法は、文字ベースのセグメンテーション戦略を採用しており、テキストの文字レベルの境界ボックスを正確に特定できます。この方法では、文字レベルのアテンション メカニズムを導入することにより、テキスト ローカリゼーションの精度が向上します。FOTS (Fast Oriented Text Spotting with a Unified Network) は、2018 年に Liu らによって提案され、テキスト検出タスクと位置決めタスクを融合することでエンドツーエンドのテキスト認識を実現します。この方法では、回転する長方形のフレームを使用して、任意の方向にテキストを配置することができ、高速かつ正確です。
  テキスト認識の分野: He et al. (2019) は、畳み込みサイクリック ニューラル ネットワークに基づくエンドツーエンドのテキスト認識方法を提案し、文字検出ネットワークと認識ネットワークを共同トレーニングすることで正確なテキスト認識を実現しました。Bai et al. (2020) は、テキスト認識モデルの堅牢性を強化するために、深層学習と敵対的生成ネットワークに基づいた教師なしテキストから画像への合成方法を提案しました。Wang et al. (2020) は、複数の言語でテキスト認識タスクを同時に処理できる、マルチタスク学習および注意メカニズムに基づく多言語テキスト認識方法を提案しました。Gupta et al. (2021) は、文字レベルのアライメント関係を学習することで多言語テキスト認識の精度と汎化性能を向上させる、多言語注意生成ネットワークに基づく多言語テキスト認識方法を提案しました。さらに、文字データの強化とモデルの最適化については、Chen et al. (2019) がデータ強化と適応学習率、および低解像度画像への適応性に基づいたテキスト認識方法を提案しました。Zhang et al. (2021) は、教師なし事前トレーニングと自己生成タスクを通じてテキスト認識モデルの堅牢性と一般化能力を向上させる、自己教師あり学習に基づくテキスト認識方法を提案しました。
  現在の学術研究者は、テキストの検出と位置決め、テキスト認識、データ強化とモデルの最適化など、さまざまな革新的な方法とテクノロジーを提案しています。これらの研究は、精度と堅牢性の点で画期的な進歩を遂げただけでなく、テキスト認識技術の実用化と開発も促進しました。今後の研究では、深層学習と他のテクノロジーの組み合わせをさらに調査して、テキスト認識のパフォーマンスと適用範囲を向上させることができます。

2 深層学習によるテキスト認識の実現可能性分析

2.1 概要

ディープ ラーニング テキスト認識の実現可能性分析は、次の側面に基づいています。
  データの可用性: ディープ ラーニング手法では、通常、トレーニングのために大量のラベル付きデータが必要です。テキスト認識の分野では、ICDAR などの公開テキスト データセットを使用することも、データセットを自分で構築してラベルを付けることもできます。十分な高品質データが利用可能であれば、深層学習テキスト認識の実現可能性が裏付けられます。
  アルゴリズム モデルと技術開発: 深層学習はテキスト認識の分野で目覚ましい進歩を遂げ、CRNN、Transformer など、多くの成功したアルゴリズム モデルと技術が登場しました。これらのモデルとテクノロジーは、さまざまなテキスト認識タスクで優れたパフォーマンスを達成し、ディープラーニングによるテキスト認識の実現可能性を検証しました。
コンピューティング リソースと技術サポート: 深層学習モデルは通常、トレーニングと推論のために大量のコンピューティング リソースを必要とします。GPU アクセラレーション、クラウド コンピューティングなどのハードウェアおよびソフトウェア テクノロジの発展に伴い、コンピューティング リソースの可用性は増加し続けており、ディープ ラーニング テキスト認識に対する十分なサポートが提供されています。
アプリケーション シナリオの要件: テキスト認識には、オフィスの自動化、画像検索、ナンバー プレート認識など、さまざまな分野で幅広いアプリケーション要件があります。ディープ ラーニング手法は、大規模なトレーニングとエンドツーエンドの学習を通じて、より高い精度と堅牢性を提供し、実際のアプリケーション シナリオのニーズを満たすことができます。
ただし、ディープ ラーニングのテキスト認識には依然としていくつかの課題と制限があります。
  まず、高品質のラベル付きデータがディープ ラーニングの効果に不可欠ですが、データの品質とラベル付けのコストが制限要因になる可能性があります。特に特定のドメインまたは言語のテキストの場合、データ収集と注釈の追加がより困難になり、費用がかかる場合があります。2 つ目は、複雑なシーンでの堅牢性です。低照度、ぼやけた画像、または遮蔽された画像などの複雑なシーンでの深層学習テキスト認識は依然として課題です。モデルの堅牢性と汎化能力をさらに改善する必要があります。ただし、ディープ ラーニング モデルはブラック ボックスとみなされ、認識決定の説明や解釈可能性が欠けていることがよくあります。一部のアプリケーション シナリオでは、意思決定プロセスを説明する必要があるため、ディープ ラーニング テキスト認識の実現可能性が制限される可能性があります。
全体として、ディープラーニングのテキスト認識は、ほとんどの場合、高い精度とパフォーマンスで機能します。テクノロジーの継続的な発展と豊富なデータリソースにより、ディープラーニング文字認識は今後もさまざまな分野で広く使用されていくでしょう。

2.2 一般的に使用される深層学習テキストの配置方法

  現在、業界および学術用途で一般的に使用されている深層学習テキスト領域位置決め手法は次の図に示されています。これには主に次のものが含まれます。 ( Single Shot MultiBox Detector) は、高速かつ正確なテキスト位置決めを実現できる 1 段階のターゲット検出手法です
ここに画像の説明を挿入
  SSD。 。さまざまなスケールの特徴マップに複数の事前定義されたアンカー ボックスを適用して、テキストの位置とカテゴリを同時に予測することで、テキスト ローカリゼーション タスクを実現します。
  EAST(効率的かつ正確なシーン テキスト検出) は、シーン テキスト検出のための深層学習手法です。完全な畳み込みネットワーク構造を使用し、回転する長方形のフレームを導入して、効率的かつ正確にテキストを任意の方向に配置します。
  TextBoxes畳み込みニューラル ネットワークに基づいたテキスト ローカリゼーション手法です。マルチスケール フィーチャ マップと多方向アンカー ボックスを使用してテキスト領域を検出し、回帰ネットワークを使用してテキスト境界ボックスを正確に特定するため、優れた堅牢性と精度が得られます。
  CRAFT(テキスト検出のための文字領域認識) は、文字レベルのセグメンテーションに基づいたテキスト位置決め方法です。文字レベルのアテンション メカニズムを利用して、テキスト領域を文字レベルの境界ボックスにセグメント化することで、テキストの位置特定の精度を向上させます。
  FOTS(統合ネットワークによる高速指向テキスト スポッティング) は、エンドツーエンドのテキスト位置決めおよび認識方法です。テキスト検出タスクと認識タスクを融合することで、回転する長方形のボックスを使用して任意の方向にテキストを配置し、エンドツーエンドのテキスト認識を実現します。

2.3 一般的に使用される深層学習テキスト認識方法

  現在、産業および学術用途で一般的に使用されている深層学習テキスト領域の位置決め手法は、以下の図 2-2 に示されています
ここに画像の説明を挿入
  CRNN畳み込みと RNN を組み合わせて、可変長テキストの直接認識を実現します。
  Transformerこれは、自己注意メカニズムに基づいた深層学習モデルであり、元々は機械翻訳タスクに使用されていました。テキスト認識の分野でも、Transformer モデルの適用に成功しています。主にグローバルなコンテキスト関係を確立し、優れた認識精度と一般化能力を備えたテキストシーケンスをモデル化します。
  Tesseractこれは、深層学習と従来のパターン認識手法に基づいたオープンソースのテキスト認識エンジンです。高い認識精度と多言語サポートを備えており、カスタム データのトレーニングによって拡張できます。
  STAR-Net(Spatial Temporal Attendee ResNet) は、多言語テキスト認識のための深層学習手法です。空間的および時間的注意メカニズムを組み合わせ、複数の言語でのテキスト認識タスクを処理でき、優れた堅牢性と精度を備えています。
  CALAMARIこれは、深層学習や接続時間分類 (CTC) などのテクノロジーに基づいたオープンソースの多言語テキスト認識フレームワークです。CNN、RNN、CTC を組み合わせて、言語間での高性能テキスト認識を実現します。
  FOTS(Fast Oriented Text Spotting) は、高速かつ正確なテキストの検出と認識を実現できるエンドツーエンドのテキスト認識方法です。回転する長方形を利用して、テキスト検出タスクと認識タスクを融合することにより、任意の向きでテキストを配置します。


要約する

  深層学習に基づくテキスト認識は近年目覚ましい進歩を遂げており、主にテキストの位置決めとテキスト認識の 2 つの重要なステップで構成されます。現在、テキストの位置決めには DB (Differentiable Binarization) アルゴリズムが使用され、テキスト認識には CRNN (Convolutional Recurrent Neural Network) アルゴリズムが使用されます。このレビューでは、テキスト認識の分野におけるこれらのメソッドの応用を要約し、PaddlePaddle フレームワークを使用してそれらを実装する理論的根拠を紹介します。
  テキストの位置決めはテキスト認識の前段階であり、その目標は画像内のテキスト領域を正確に見つけることです。DB アルゴリズムは、従来の 2 値化方法における固定閾値の問題を適応閾値によって解決します。深層学習ネットワークを利用して、各ピクセルがテキスト領域に属するかどうかを予測し、バイナリ セグメンテーション マスクを生成します。この方法は優れた堅牢性と適応性を備えており、さまざまな画像の明るさとコントラストの変化に応じてテキストを正確に見つけることができます。テキスト認識は、単語の画像を理解可能なテキストに変換するプロセスです。CRNN アルゴリズムは、畳み込みと RNN の利点を組み合わせており、画像の空間特徴とシーケンス情報を同時に処理できます。

おすすめ

転載: blog.csdn.net/weixin_40280870/article/details/132128863