論文「テキスト カーネルを使用した堅牢なエンドツーエンド オフライン中国語手書きテキスト ページ スポッター」

まとめ

(1) テキストが行うことはテキスト認識です。
(2) これまでの研究では、テキストの検出と認識は分離されていました。(3) この論文は、テキスト検出とテキストカーネルを使用したテキスト認識を組み合わせ、グローバルなテキスト特徴情報を統合し、複数のスケールから認識を最適化し、検出の依存性を低減し、堅牢性を向上させる、エンド
ツーエンドのテキスト認識フレームワークを設計します。システムの。(4) 認識精度の結果は以下の通り

データセット 行レベル ページレベル
CASIA-HWDB2.0-2.2 99.12% 99.03%
ICDAR-2013 94.27% 94.20%

1. はじめに

(1)近年の手書き文字認識方式には、ページレベル認識方式と行レベル認識方式の2種類がある。オフラインの中国語手書きテキスト認識については、ほとんどの研究が行レベルのテキスト認識に基づいています。

(2)行レベルの認識方法には、主に 2 つの研究方向があります。

  • オーバーセグメンテーション法
    オーバーセグメンテーション法では、まずテキスト行画像を一連の基本セグメントに分割し、次にこれらのセグメントを組み合わせて候補文字パターンを生成し、セグメンテーション候補格子を形成し、各候補パターンを分類して複数の候補文字クラスを割り当てます。文字候補を生成します。

    Wang QF et al. [1] は、ベイズ意思決定の観点からオーバーセグメンテーション法を最初に提案し、分類器の出力を信念変換を通じて事後確率に変換しました。Song W et al. は、セグメンテーション候補格子から階層的監視情報を取得するために、異種 CNN を利用したディープネットワークを提案しました。

過剰分割方法の制限:
テキスト行が正しく分割されていない場合、その後の認識に大きな困難が生じます。

  • 非分割法
    深層学習に基づく非分割法は、「過剰分割法の限界」を解決するものです。

    Messina ら [3] は、コネクタ時間分類器 [4] (CTC) をエンドツーエンドのテキスト行認識の損失関数として使用する、多次元長期短期記憶再帰型ニューラル ネットワーク (MDLSTM-RNN) を提案しました。Xie [5] ら [5] は、データの前処理と拡張パイプラインを通じてテキスト画像を修正し、認識を最適化する CNN-ResLSTM モデルを提案しました。Xiaoら[6]は、ピクセルレベルの修正をCNNおよびRNNベースの認識器に統合するための、ピクセルレベルの修正を備えたディープネットワークを提案しました。

(3)ページレベルの識別方法は、主に「 2 段階識別方法」と「エンドツーエンド識別方法に分けられます。

  • 二段階認識法二段階認識法では、テキスト検出とテキスト認識
    にそれぞれ 2 つのモデルを適用し、通常、最初にテキスト行を検出し、次にテキスト行を切り出して認識します。

    Li X et al. [7] は、段階的なスケール拡張によって任意の形状のテキスト行を検出するセグメンテーションベースの PSENet を提案しました。Liu Y et al. [8] は、曲線テキスト行検出のための 3 次ベジェ曲線に基づく ABCNet を提案しました。Liao M et al. [9] は、強力なシーン テキスト ローカリゼーションのために、セグメンテーション プロポーザル ネットワーク (SPN) とハード RoI マスキングを備えた Mask TextSpotter v3 を提案しました。

  • エンドツーエンドの認識方法
    エンドツーエンドの方法では、認識のために画像を数行または行全体の特徴マップに徐々に圧縮します。

    主な注意点は、テキスト行を検出しないページレベルの認識方法では、テキストの位置に関する情報が失われるということです。

    行レベル認識、二段階認識方式に関わらず、まず文字行の位置情報を求め、その後文字行を分割して認識します。それは検出と認識を分離することです。

(3) この記事の考え方

  • 検出と認識は分離すべきではないと考えており、
    検出ではテキスト行の位置情報しか提供できないため、認識中にグローバルなテキスト情報を活用することが困難になります。検出枠が実際の文字行より大きいか小さいかに関係なく、その後の認識に影響します。

    これは、テキスト行画像の配置が元のテキスト ページ画像内にあるため、認識するには十分な堅牢性がありません。文字行の検出は非常に重要であり、文字行がうまく検出できなければ、文字行画像を正確に認識することができません。

    私たちは、テキスト認識の鍵はテキストを正確に認識することであると考えています。正確な検出ではなく、テキストのおおよその位置を知る必要があるだけです。この論文では、テキストの検出と認識を統合するための、堅牢なエンドツーエンドのテキスト カーネル セグメンテーションとテキスト ページ認識フレームワークを提案します。

(4)この記事の寄稿

  • 私たちは、グローバル情報を活用して検出と認識を最適化する、新しいエンドツーエンドのテキスト ページ認識フレームワークを提案します。
  • この論文では、テキスト行をテキストカーネルに位置合わせするための中心線ベースの方法を提案し、中心線に基づいて特徴マップからテキスト行を抽出します。
  • 我々は、RNN の代わりに TCN とセルフアテンションを使用する、マルチスケール情報統合を備えたテキスト行認識モデルを提案します。
  • 私たちはモデルの有効性を検証し、他の最先端の方法と比較するために一連の実験を実行しました。CASIA-HWDB データセットと ICDAR-2013 データセットの両方で最先端のパフォーマンスを実現します。この方法のページレベルの認識パフォーマンスは、行レベルの認識方法よりもさらに優れています。

2.方法

我々の手法の枠組みを図2に示します。このフレームワークは、テキストの検出と認識のための 3 つのモジュールで構成されています。セグメンテーション モジュールは、テキスト行のコア領域のセグメンテーション マップとテキスト ページの特徴マップを生成するために使用されます。セグメンテーション マップに基づいてテキスト行特徴マップを抽出するために、接続モジュールが導入されています。認識モジュールは、DenseNet [15]、TCN、および Self-attention に基づいています。
ここに画像の説明を挿入
認識結果は以下の通りです。
ここに画像の説明を挿入

2.1 セグメンテーションモジュール

セグメンテーション モジュールは入力画像を処理して、元の画像の 4 分の 1 のサイズの特徴マップとセグメンテーション マップを生成します。この部分では、主に、任意形状のテキスト セグメンテーションで優れたパフォーマンスを発揮する PANNet [12] のネットワーク構造を利用します。ResNet34 [13] をバックボーンとして使用し、バックボーンによって生成された 4 つの特徴マップのストライドを入力画像に対して 4、4、8、8 に変更します。テキスト認識にはきめ細かい特徴情報が必要なので、より大きな特徴マップを抽出します。

異なるスケールの特徴情報を抽出・融合するためにPANnetのFeature Pyramid Enhancement Module(FPEM)とFeature Fusion Module(FFM)を保有しており、FPEMの繰り返し回数は4回である。

設定したテキスト行カーネル領域のサイズは元のサイズの 0.6 であり、異なるテキスト行領域を区別するには十分です。

2.2 接続モジュール

テキスト行特徴マップは、接続モジュールを使用してセグメンテーション マップから抽出されます。私たちは、特徴マップには元の画像よりも高次元の情報が含まれており、特徴マップはコア領域のテキスト情報を収集できるため、テキスト行特徴マップの抽出がより堅牢になると考えています。核領域を中心として、テキスト特徴情報が核領域に集中するように特徴マップを透視変換などランダムに変換します。その後の認識のために、すべてのテキスト行特徴マップを 32 ピクセルの高さにスケールします。

テキスト行は、その中心線が各文字を通過する中心線と考えることができるストリップであると仮定します。一般に、テキストの行は高さよりも長く、テキストの各行には中心線があります。テキスト行バンドの内接円を使用して、テキストの中心線を見つけます。テキスト行バンドの最大の内接円の中心がテキストの中心線上にあると仮定します。トレーニング中に、透視変換を使用して、実際のテキスト ボックスに対してテキスト行を位置合わせします。整列されたテキスト行特徴マップは、データ拡張のために内部方向にランダムにアフィン変換されるため、モデルはテキスト特徴情報をコア領域に集中させるように学習します。

評価では、セグメンテーションマップに基づいてテキスト行を配置します。ただし、この方法ではテキスト行の核領域の輪郭しか取得できず、テキスト行の軌跡も取得する必要があります。この論文では、等高線に基づいて中心線を生成するためのアルゴリズム 1 を紹介します。最大値を取得するには、各内部点と輪郭境界の間の最短距離を計算する必要があります。プロファイル内の各点における内接円の半径。distance は、2 点間のユークリッド距離の計算を表します。面積と周長は、等高線の面積と周長の計算を表します。

アルゴリズムは、等高線内の最大の内接円を継続的に見つけて、その中心を等高線の中心線の点セットに追加し、中心線の両端から伸びる点を中心点セットに追加します。図 3 は、中心点を生成するプロセスを示しています。始点の横座標が終点よりも小さいと仮定します。アルゴリズム 2 に示すように、中心点間の距離に応じて並べ替えることができます。対応する点を一致させて変換し、変形による曲げエネルギーを最小限に抑える薄板スプライン (TPS) [14] 補間を使用して画像を位置合わせします。図 4 に示すように、中心線の点と半径に従って、TPS 変換の座標点を生成できます。TPS 変換により、不規則なテキスト行を長方形に変換できます。
ここに画像の説明を挿入

2.3 認識モジュール

このモジュールは、テキスト行画像をテキスト行特徴マップに置き換えることを除いて、従来のテキスト行認識とほぼ同等です。ほとんどの方法では、RNN を使用して時系列特徴マップの意味関係を構築します。私たちは、RNN には 3 つの主な欠点があると考えています: 1) 勾配消失が起こりやすい、2) 計算が遅い、3) 長いテキストの処理が苦手。

RNN を使用しないテキスト行認識のためのマルチスケール特徴抽出ネットワークを設計しますCNN と比較して、TCN と self-attention は長距離情報統合能力が優れています。認識モジュールの構造を図 5 に示します。
ここに画像の説明を挿入
テキスト行認識のタスクについては、3 つのレベルの認識があると考えられます。1つ目は、各文字の画像情報に基づいて各文字の特徴を抽出することである。2 番目の方法は、各文字の周囲の複数の文字に基づいて補助特徴抽出を実行する方法です。3 番目の方法は、グローバル テキスト情報に基づいて機能を最適化することです。

最初の層では、DenseNet をバックボーンとして使用して、特徴マップ上でさらに特徴抽出を実行し、特徴マップの高さを徐々に 1 に圧縮し、時間順の特徴マップに変換します。ボトルネック層の数の乗算係数は 4 です。各緻密層には 32 個のフィルターが追加されます。空間的およびチャネルごとの注意を利用するために、各密ブロックの前に CBAM [16] 層を追加します。DenseNet のその他の詳細な構成を表 1 に示します。

特徴抽出の第 2 段階には、Temporal Convolutional Network (TCN) [17] を使用しますtcn で拡張畳み込みを使用して、CNN よりも大きな受容野を取得します。rnn と比較して並列計算が可能で、計算速度が速く、勾配がより安定しています。最大拡張 8 の 4 層 TCN がモデルに導入されており、これによりモデルの受容野サイズは 32 になります。

第 3 レベルでは、グローバルな情報抽出のための自己注意構造を採用しますTransformer [18] のエンコーダ層のみを使用し、マルチヘッド セルフ アテンション メカニズムがグローバル機能接続を確立するための核となります。自己注意メカニズムは主に自然言語処理の分野で使用されますが、テキスト認識によって得られるテキストにも意味的な特徴があります。私たちは自己注意を活用して意味的な関連付けを構築し、認識を支援することができます。このモデルは、1024 の隠れ層次元と 16 個の並列アテンション ヘッドを備えた 4 層セルフ アテンション エンコーダを採用しています。

2.4 損失関数

損失関数は次のとおりです。
L = L テキスト + a L カーネル L = L_{text} + aL_{kernel}L=Lテキスト_ _ _+_カーネル_ _ _ _
L テキスト L_{テキスト}Lテキスト_ _ _文字認識損失は CTCLoss、L カーネル L_{kernel}によって計算されます。Lカーネル_ _ _ _テキストカーネルの喪失です、aaaは 2 つの重要性のバランスをとるために使用されます。この記事ではaは0.1に設定されます。L カーネル L_{カーネル}Lカーネル_ _ _ _分析と計算は次のとおりです。
ここに画像の説明を挿入

3. 実験結果

ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/qq_41915623/article/details/127031077