ICCV2021: TextBPN - 「任意形状テキスト検出のための適応型境界提案ネットワーク」論文閲覧メモ

元のリンク: https://arxiv.org/abs/2107.12664

ソースリンク: https://github.com/GXYM/TextBPN

序文

自然シーン画像内の任意の形状のテキスト検出では、セグメンテーション ベースの方法にはまだ 2 つの問題があります: 1 つは、隣接するテキスト インスタンスを効果的に分離できず、複雑な後処理が必要なことです。もう 1 つは、セグメンテーション ベースの方法が依存していることです。輪郭検出の精度により、検出された輪郭には欠陥やノイズが多く含まれます。したがって、この論文では、任意の形状のテキスト検出のための適応型境界候補ネットワークを提案します。著者は、テキスト インスタンスの固着の問題を解決するために、最初にテキスト インスタンスの太い境界線 (実際のテキスト領域よりわずかに小さい) を取得することを提案します。同時に境界を設計します。調整ネットワークに自己適応するため、太い境界の調整が繰り返し調整され、最終的には実際の境界に近づきます。


1. 手法の設計

1. ネットワーク構造

 図1 TextBPNのネットワーク構成図

ネットワーク構造には、 Fs       を生成するバックボーン ネットワークとして ResNet-50 を使用して形成された同様の特徴ピラミッド構造(構造は図 1 には示されていません)、境界提案ネットワーク、および適応境界変形ネットワークの 3 つの部分が含まれています。

1) 多層機能融合戦略: バックボーン ネットワークの多層畳み込みは、アップサンプリングとスプライシングを通じてFに融合されます。

2) フレーム提案モジュール: 異なるホール レートを持つ 2 つの 3 x 3 畳み込み層と 1 x 1 畳み込み層を含む多層ホール畳み込みで構成され、分類マップ、距離フィールド マップ、および方向フィールド図を生成します。事前情報Fp部分。

3) 適応境界変形ネットワーク: 境界トポロジーとシーケンス コンテキストは GCN と RNN を通じて学習され、太い境界線の細化は反復によって完了します。

(1) 多層機能融合戦略

深い機能は、cat 操作用に前の機能と同じサイズにアップサンプリングされます。このモジュールの具体的なネットワーク構造は、図 2 に示されています。

図2 FPNネットワーク構造図に類似

 (2) 境界線提案モジュール

図 3 に示すように、分類マップ、距離フィールド マップ、および方向フィールド マップは、多層ホール畳み込みを通じて取得されます。

分類マップには、各ピクセル (テキスト/非テキスト) の分類信頼度が含まれます。

方向フィールド マップ ( \小V)は、図 3(c) に示す2 次元単位ベクトル で\small \left ( \vec{x},\vec{y} \right )構成されます。これは、境界内の各テキスト ピクセルから境界上の最も近いピクセルまでの方向を表し、テキスト インスタンス内の各ピクセル\small \mathbb{T}について\小p、テキスト\small \mathbb{T}ボックス上で最も近いテキスト境界ピクセルを検索し\small B_{p}、各ピクセルの単位ベクトルを計算します\small V_{gt}\left ( p \right )\small \mathbb{T}テキスト インスタンスの外側のピクセルは方向フィールドに設定されます\small \left ( 0,0 \right )

\small V_{gt}\left ( p \right )=\left\{\begin{行列} \overrightarrow{B_{p}p}/\left |  \overrightarrow{B_{p}p} \right |,\;  \;  \;  p\in\mathbb{T} \\ \left ( 0,0 \right ),\;  \;  \;  \;  \;  \;  \;  \;  \;  \;  \;  \;  p\notin \mathbb{T} \end{行列}\right。

距離フィールド マップ ( \小D)正規化された距離マップ、つまり、テキスト ピクセルからpテキスト ボックス\small \mathbb{T}上で見つかった最も近いテキスト境界ピクセルまで\small B_{p}の正規化された距離D_{gt}\left ( p \right )、およびテキスト インスタンスの外側のピクセルが\small \mathbb{T}距離フィールドに設定されます\小0ここで、 はピクセルが配置されているテキスト インスタンスのスケール\小Lを表します\小p\small \mathbb{T}

\small D_{gt}\left ( p \right )=\left\{\begin{行列} \left |  \overrightarrow{B_{p}p} \right |/L,\;  \;  \;  p\in \mathbb{T}\\ \;  \;  \;  \;  \;  0,\;  \;  \;  \;  \;  \;  \;  \;  \;  \;  p\notin \mathbb{T} \end{行列}\right。 \;  \;  \;  \;  \;  \;  \;  \;  \;  \;  \;  \;  \;  \;  \;(1)

\small \L =max\left (D _{gt}\left ( p \right ) \right )\;  \;  \;  \;  \;  \;  \;  \;  \;  \;  \;  \;  \;\;  \;  \;  \;  \;  \;  \;\;  \;  \;  \;  \;  \;  \;  \;  \;  \;  \;  \;  \;  \;  \;  \;  \;  (2)

 図3. 事前情報特徴マップ表示

フレーム提案モジュールでは、距離フィールド マップ ( \小D)を使用して、固定しきい値\小さい th_{d}を設定することで候補フレーム提案を生成できます。図 4 では、元の画像 (a) は距離フィールド マップを通じて可能なテキスト ボックスを取得しますが、図 (b) に示すように、誤検出では、分類マップに従って各候補フレームの平均信頼度が計算され、取得されたよりも低い信頼度閾値提案スコアが\小さい th_{s}

 図 4 提案されたテキスト ボックスを生成する概略フ​​ローチャート

(3) 適応境界変形モジュール

このモジュールの主な機能は、テキスト ボックス内のトポロジー構造とシーケンス コンテキストを通じて学習し、得られた太い境界線を繰り返し調整して実際のテキスト ボックス インスタンスを取得することです (個人的な理解は後処理機能に似ています)。この構造の一部は主にエンコーダ部分に GCN と RNN を導入することであり、同時にブランチでは 1 x 1 畳み込み層を使用して ResNet のような残差構造を形成します (図 5 を参照)。部分では、ReLU の 1 x 1 畳み込みが 3 層あります。候補フレームを絞り込むために、論文では反復処理を使用しています(モジュールコードがソースコード内で3回循環的に接続されています)。

図5 適応変形モジュールの構成図

提案された候補フレームを取得した後, 座標点を取得する必要があります. この論文では, 提案された候補フレームを使用して候補フレームの境界を選択し, 周囲に応じて等しい長さの 20 個の部分と 20 個の座標点に分割しますはそれぞれ候補フレームの座標として得られる(ソースコードのトレーニングでは、テキストボックスによって生成された候補フレームの20個の座標点をマークすることによって反復トレーニングが実行されます)

図 6 に示すように、適応変形モジュールの入力として座標点を通じてノード特徴行列を生成する必要があります。具体的な操作は次のとおりです。図 2 では、32 次元の共有特徴 FsがCNN バックボーン ネットワークによって取得されたものと、多層ホール コンボリューションによって取得された4 次元の事前特徴連結されてcnn_feature つまりFが形成されます。同時に、 F 内の 20 個の座標点の対応する位置を組み合わせて各制御点 (座標点) の特徴が抽出され、最終的に境界特徴候補行列 X (サイズ: N × C)f_{i}=concat\left ( {F_{s}} \left ( x_{i}, y_{i}\right ), {F_{p}} \left ( x_{i}, y_{i}\そうそう )が得られます

図6 適応候補フレーム変形ネットワークプロセス全体の概略図

2. 損失関数

ネットワークの損失関数は次のように定義されます。

\L =\L _{B_{p}}+\frac{\lambda \ast \L _{B_{d}}}{1+e^{\left ( i-eps \right )/eps}}

その中には\L _{B_{p}}、フレーム提案損失、\L _{B_{p}}適応境界変形モデルの損失が含まれます。eps はトレーニングの最大エポック数を表し、\ラムダ0.1 に設定されます。

\L _{B_{p}}クロスエントロピー分類損失を含むピクセル分類損失\L _{cls}、回帰損失の距離損失\L_{D}、および方向フィールドでの L2 法線距離と角距離の損失\L_{V}、および\アルファ=3:

\L _{B_{p}}=\L _{cls}+\alpha \ast \L _{D}+\L _{V}

\L _{B_{d}}\small \L \left ( p,p^{'} \right )ポイント マッチング損失の場合、主に予測ポイントと真値ポイントの間の損失を計算します。画像内には複数のテキスト インスタンスがあるため、各テキスト インスタンスの損失は です。したがって、平均損失を計算する必要があります。

\small \L _{B_{d}}=\frac{1}{\mathbb{T}}\sum_{i=0}^{N-1}\L \left ( p,p^{'} \右 )


2. 実験結果

1. アブレーション実験

(1) 適応的候補フレーム変形モジュール

実験は Total-Text と CTW1500 で行われ、\small Conv_{1\times 1}実験には FC sum 、RNN、circular convolution、graph convolution (GCN) の 4 つの異なるタイプのエンコーダが使用されました。実験結果を表 1 に示します。最高に働きます。 

(2) 制御点の数

この実験は主に、提案されたテキスト ボックスを生成するために使用されるコントロール ポイントの数を調べることを目的としています。コントロール ポイントの数は 12 ~ 32 に設定され、間隔は 4 です。合計テキストと CTW1500 についても評価されます。結果を図 7 に示します。示されているように、制御点の数が約 20 の場合に最良の効果が得られるため、論文で設定した制御点の数も 20 です。

図7 制御点数の実験結果

 (3) 反復回数の影響

反復回数の影響を完全に検証するために、著者はさまざまな反復の下でモデルで実験を行いました。その結果を表 2 に示します。反復回数が増加すると、検出効果は向上しますが、推論速度は低下します。反復回数が 3 の場合、効果の向上は明らかではありませんが、速度とパフォーマンスのバランスを考慮して、著者は最終的にデフォルトの反復回数を 3 に設定します。

 同時に、作成者は反復プロセス中に予測されたテキスト ボックスの結果マップも提供します。青色のテキスト ボックスは推奨テキスト ボックス (太いテキスト ボックス)、緑色は各反復からの予測されたテキスト ボックスです。 、図8に示すように。

 図 8 反復結果の視覚的表示

(4) 事前情報の影響

フレーム提案モジュールでは,適応候補フレーム変形モジュールの反復変換をガイドするための事前情報として分類マップ,距離フィールドおよび方向フィールドが生成される.結果を表3に示す.追加された事前情報は,パフォーマンスの向上に大変役立ちます。

 (5) 異なる FPN 解像度

主に FPN-P1 (1/1)、FPN-P1 (1/2)、および FPN-P2 (1/4) の使用をテストしました。これらはそれぞれ、FPN の P1 機能を使用して同じサイズを取得する機能を表します。アップサンプリング後の元の画像、アップサンプリングされていない P1 特徴 (元の画像の 1/2 サイズ) および P2 特徴 (元の画像の 1/4 サイズ) の結果を表 4 に示します。

2. 性能比較

全文

 CTW-1500

MSRA-TD500






要約する

本論文では,任意形状テキスト検出のための適応境界提案ネットワークを提案する.境界提案モデルを使用して大まかな境界を生成し,次にGCNとRNNを組み合わせた適応境界変形モデルを使用して境界を繰り返し変形して,境界を改良する太い枠線: テキスト インスタンスのより正確な形状を取得します。

上記は、ブロガー自身が論文を読んだ経験を要約したものであり、必ずしも正確ではない部分もあります。間違いがあれば、批判や議論を歓迎します。

同時に、誰もがソースコードの読み方と理解について話し合って学び、お互いに助け合い、一緒に進歩することを歓迎します。

おすすめ

転載: blog.csdn.net/kb16045125/article/details/121851405