形状堅牢なシーンテキスト検出紙翻訳研究のためにラインポイント回帰をスライディング

形状堅牢なシーンテキスト検出用のラインポイント回帰をスライディング

テキスト検出の形を歪めます

要約:

従来のテキスト検出法は、四角形のテキストを焦点を当てています。スリップポイント戻りライン(SLPR) - 任意の形状の自然なシーンでテキストを検出するために、我々は新しい方法を提案します。その後、復帰ポイントのテキスト行SLPRの複数のエッジ、およびこれらの点のテキストを描画するためにアウトラインを使用しています。提案された方法は、より速いR-CNNおよびR-FCNとして、多くの検出対象アーキテクチャに適用することができるSLPR。具体的には、まずエリアネットワーク勧告(RPN)テキスト、水平線と垂直線テキスト低減のエッジに均等に摺動可能点を含む最小の矩形を生成します。冗長性を減少させる、情報を最大限に活用するために、我々はxの矩形枠の位置座標またはyが、目標点の座標を計算のみ残りx座標または退行をy座標。これは、システムのパラメータを減少させることであり、正多角形より多くのポイントの発生を抑制することができます。伝統的なICDAR2015での我々のアプローチは、テキストとテキスト検出曲線データセットのCTW1500シーンに比較的良好な結果を達成しています。

1.はじめに

それは、デジタルテキスト、テキスト翻訳など多くの分野で使用することができますので、私たちの日常生活の中でのテキストの検出は非常に重要です。いくつかの従来の方法[1] [2]より速く多くのR-CNN中に基づく[3]又はSSD [4] SceneTextレベルデータセットが良好な結果を達成しています。いくつかの方法[5] [6] [7] [8] [9] [10] [11]また、テキストを検出された問題を解決することを試みることができます。[9]及び[11]まず回帰水平長方形、次いで四辺形を返します。ターゲット[12]ハンドオーバ後矩形、不規則なポリゴンを作成することです。四角形として上記メインテキスト行の方法は、四点は完全に表現することができます。しかし、自然のシーンでは、四角形に加えて、テキスト形状の他の多くの異なる行があります。このように、最近の研究[13] [14]は、テキスト行曲線検出を模索し始めています。本論文では、任意の方向およびテキスト検出の曲線。我々のアプローチは、スリップ点戻りライン(SLPR)が高速またはR-CNN RFCNを使用してターゲットを検出するための二段階法に基づいています。まず、それはいくつかの興味深い発生に矩形エリアネットワーク(RPN)を有する候補領域を上昇させ、その後、エッジポイントテキスト回帰。我々はポイントが返すべきかを決定するためにいくつかのルールを生成し、その点の間の相関関係があるでしょう。[13]分解直接Xと固定小数点のy座標とは異なり及びRNN [15]を使用して注釈を付け、[16]、それらの関連性を学習し、我々は、行のテキストに沿って摺動する垂直および水平、いくつかのルールを導入し、再びスライド線の交点は、図に示すように、テキストの1行。したがって、我々は唯一の点のx座標またはy座標、及び他の矩形が不要な計算を減少させる、位置計算を調整し、パフォーマンスを向上させるに戻ることができます。

次のように貢献しています。

1。この論文では、リターン・テキストの境界線上の点、及び試み複数の任意の方向に基づいて高速テキスト検出曲線R-CNNおよびR-FCNに対処します。

2。リターンポイントの真の値を決定し、スリップライン法に導入されて生成された多くの正多角形の相関ポイントを活用します。

II。関連する仕事

近年では、シーンのテキストの検出と認識、より多くの人々の注目。しかし、シーン位置決めテキストと背景の複雑さのため、その検出はまだ問題があります。文字ベースの方法、単語ベースの方法とメソッドベースのセグメンテーション:すべての方法は3つのカテゴリに分類することができます。余分な作業を必要とするテキストマークアップ文字の行のように文字ベースのアプローチは、一般的に、統合されたデータセットが必要です。しかし、生成されたデータと実際のデータに大きな偏りはなく、テキストのベースラインシナリオを伴うなどの人気ICDAR2015など、実際のデータセット、上の最も先進的な結果を達成するために訓練されたモデルがあります。この問題を解決するには、[17]、実際のデータモデリングに半教師アプローチの使用、良い結果を達成しました。

検出に基づいたテキストセグメンテーションが適用されています。[18]完全畳み込み訓練されたネットワーク(FCN)[19]、[20]次いで合わせた顕著性マップと文字が組立ラインを追跡するために、顕著性マップのテキスト領域を予測しました。テキストクラスとその近傍を分離する境界を追加[21]。[10]と[8]のテキストマッピング、すなわち、4つの頂点の座標が同時に対応する四辺形と角度の小型化。従来の分割方法と比較すると、彼らはテキストベースラインシナリオに大きな突破口を作っICDAR2015で出荷しました。

このような高速R-CNN [22]、SSDなどのターゲットを検出する多くの方法、[4]、R-FCN [23]とYOLO [24]。[2]不規則1×5のコンボリューションフィルタ、代わりに長いテキスト検出用のネットワークをより適切にするために、標準的な3×3の畳み込みフィルタを使用します。[25]図を使用してバックグラウンドノイズを除去することに留意されたいです。近年では、研究者が増えて速いRCNNを提案しているか、R-FCN 2段階法をベースにしています。[11]次に、第1発電軸整列バウンディングボックス、テキスト四角形回帰。彼らは、プールroipool層にマルチスケール操作を用いました。[9]の試み同時セグメンテーションおよび検出テキスト。テキスト行のいずれかの方向のための[26]追加のアンカー異なる角度は、テキスト行の特殊性を考慮しました。最近では、[14]は、ポリゴンと新しいカーブマークされたテキストデータセットのケースを考えてみましょう。[13]また、テキストデータ曲線CTW1500のセットを構築し、それらは、新しい構造をテキスト検出曲線の問題を解決するためのテキスト検出曲線(曲線テキスト検出器、CTD)と呼ばれる提案されました。

III。方法

我々のモデルは、より速いR-CNNおよびR-FCNのような2つのステップ、の任意の物体検出フレームワークにも適用することができます。回帰は、テキストと線を含む最小の長方形を含んでいる境界線の特定の点を座標系。より具体的には、R-CNN速く例えば、まずRPNに興味深い領域を使用して、長方形を返すようにするだけでなく、テキストのライン及びエッジ点の座標を返し、最後に我々は、任意の形状のテキストを取得することができますエリア。

入門

  1. テキスト検出モデルタイプ(最初の2つの段落は、一般的な論文を紹介します)

            対象候補フレームに基づいて検出認識モデル

      2.既存のモデルの問題

              漏れ検出があります

      3.この記事では、問題を解決します

               この論文において、返信テキストの境界線上の点、および迅速かつR-FCN任意の方向ベースのテキスト検出曲線R-CNNに対処しようとする複数の。

                前記方法は、スリップラインの導入ポイントが真の値を返すかを決定するために、多角形の相関の完全な使用は、ポイントがより規則生成します。

 

まず、モデル

  1. メインのイノベーションモデル(簡単な説明)

(スライディング等距離我々は実験で使用)いくつかのルールが直線上に上下左右にスライドするテキストラインに導入され、その後、境界線及びテキストの回帰直線の交点をスライド。

:どのような点を返す必要がありますか?

もちろん、どのようにポリゴンセットのリカバリポイントを決定することは非常に重要です。私たちは、ルール、簡単にニューラルネットワークの学習に簡単と信じています。自然なシーンの形状や角度の大きな変化に、全ての特徴点の固定された順序は、形状を決定することは困難ですので、我々は、ポリゴン固定小数点回帰の頂点を好きではありません。四辺形のために、我々はそれを復元完成、しかし、ルールの複雑な一連の4つの頂点の順序を決定する必要があり、それぞれ4つの頂点に戻ることができますが、ニューラルネットワークを学習することは困難です。さらに、図2に示すように、我々は、一直線上に垂直方向と水平方向のスライド(我々は等距離の実験で使用したスライド)にいくつかのルール上のテキストのラインを導入し、その後、境界線の交点とテキストの回帰直線をスライド。スリップラインの制約に起因する一方、交点の異なる座標間の相関。同時に、あなたは、xとすべての点のy座標に戻す必要はありません。水平スライド場合、Xテキストの境界上の点の座標は、矩形の座標によって計算することができるので、我々は、これらの点のy座標に戻る必要があります。同様に、垂直スライド場合、私たちは、これらの点のx座標を回復する必要があります。方法は、ネットワークの計算の複雑さを軽減し、事前知識として結合する点に戻り、奇妙な形状の多角形の形成を防止し、さらに精度を向上させるだけでなく。スライドの行数は、我々は、このパラメータは四角形ラインに鈍感であることを観察しました。しかし、適切にテキストの行を回復するために、他の形状は、パフォーマンスとネットワークの複雑さのバランスの後、我々は7を垂直方向と水平方向の処理のために使用されたラインをスリップすることを決めました。したがって、14本の直線の合計は、28の交差点を用いて製造します。

B. マルチタスク学習

図2に示すニューラルネットワークのパラメータの最適化は、我々はマルチタスク方式の損失関数Lは次のように定義されて学びます。

LRPN地域の提案が失われる、LRBバックボックスのために失われ、地域分類案が失われLRCLS。第二段階の後LSLPR RPN損失。同様に、最初の二つLCLS及びLBは損失とリターンロスボックスに分類されます。本研究でλRλBとλS重要な要因に関連する権利は、1に設定されています。LSLPRBは損失SLPR提案されたプロジェクトで動作しています:

LREGボックス回帰タスクは、損失のL1平滑化されています。

在Eq.(4)中,n表示在一个方向上的滑动线的数量,我们在实验中设n = 7。通常,每行都有两个与文本行边框相交的点。如果有两个以上的交点,我们取最小的和最大的坐标。xvj为垂直滑移线和文本线边界交点vj的x坐标,yhi为水平滑移线和文本线边界交点hi的y坐标。x和y∗∗vj是神经网络输出相应的点估计。对于水平滑动的直线,我们只对其交点的y坐标进行回归。对于垂直滑移线,我们只对其交点的x坐标进行回归。其他坐标可以通过矩形的坐标恢复:

 

xmin和ymin表示矩形边界的最小x坐标和y坐标,xmax和ymax表示矩形边界的最大x坐标和y坐标。b·顺楼层功能。综上所述,为了回归多边形的坐标,需要考虑32个参数,包括矩形的4个参数和文本线边界上相交点的x、y坐标的28个参数。

 

C、多边形恢复

通过上述SLPR方法,我们可以从神经网络的输出中得到多个点。为了恢复最终的四边形或多边形,我们采用了以下两种方法进行比较:

1)只使用长边点(PLS):文本线总是延伸到长边,沿着长边滑动的线能更好地反映文本的形状。实际上,我们可以通过扫描长边来恢复多边形,如图3所示。具体来说,我们首先通过回归矩形判断文本行是水平的还是垂直的,然后通过相应方向上的点恢复多边形。以竖直方向为例在图3中,因为我们不回归矩形边界的交点,我们首先扩展边界附近的四行找到四个相交点的矩形,然后连接四个新的点和其他交集点生成多边形。

2)同时使用水平点和垂直点(BHVP):实际上,如果我们同时使用水平点和垂直点来恢复多边形,我们可以使用[27]中的方法粗略地计算经过这些点的多边形或四边形,如图4所示。这样我们就可以在水平方向和垂直方向上得到足够密集的点,而不需要像PLS方法那样计算矩形的交点。然而,我们发现BHVP对于多边形的效果不如PLS。因此,我们只在四边形数据集(ICDAR2015附带场景文本)上使用这种方法。

 

D. Polygonal non-maximum suppression   多边形非极大值抑制

非极大值抑制(Non-maximum suppression, NMS)是非极大值抑制(Non-maximum suppression, NMS)是目标检测中常用的一种基本方法,其目的是去除重复的方框。传统的NMS方法是基于矩形盒的,这不是其他形状的最佳选择。近年来研究了其他NMS方法,如感知位置的NMS[10]、倾斜的NMS[11]、Mask-NMS[9]和多边形NMS[13]。在本研究中,当我们考虑多边形时,我们在实验中比较了NMS和PNMS。

 

结果:

1) ICDAR2015附带场景文字:表I显示了不同设置下SLPR系统的结果。首先,对于文本区域的四边形的恢复,BHVP使用所有的点比PLS使用长边点的效果更好。其次,即使我们的目标是检测该数据集中的四边形,PNMS仍然优于NMS。最后,使用多尺度是提高不同目标尺寸检测性能的一种方法。我们还测试了我们的系统在(850,1000)的多尺度结果,得到了大约1%的Hmean度量的绝对改进。图5列出了ICDAR2015附带场景文本数据集上几个具有挑战性的检测结果示例。表2给出了在ICDAR2015附带场景文本上的SLPR与最新结果的比较。可以看出,我们的方法在该数据集上取得了比较好的效果。

2) CTW1500:表3显示了我们的方法在不同NMS设置下的结果。与ICDAR2015附带场景文本的观测结果不同,我们的方法在NMS0.3上取得了最好的结果,即传统的NMS方法以0.3为阈值计算IoU (Intersectionover-Union)。表4列出了我们的方法与CTD和CTD+TLOC相比较的结果。我们从[13]中删除了TLOC作为我们的基础网络,这和CTD是一样的。显然,与CTD方法相比,我们的SLPR方法的Hmean性能可以提高5.3%,证明了我们简单规则设置回归点的有效性。即使与增加了LSTM网络的CTD+TLOC方法相比,SLPR仍能使Hmean性能提高1.4%。图6给出了CTD、CTD+TLOC和SLPR检测结果的几个例子。可以看出,与CTD相比,我们的方法产生了更平滑的区域和更好的检测结果,这意味着所提出的SLPR能够更好地处理任意方向的情况,这是因为采用滑动线的水平对称和垂直对称扫描的新设计。

在本文中,我们提出了一种新的文本检测方法——任意形状的SLPR方法。与CTD+TLOC[13]的文本检测方法相比,SLPR在不使用LSTM的情况下更加简洁,获得了更好的性能。在传统的四边形数据集(ICDAR2015附带场景文本)中,SLPR也实现了最先进的性能。

总结

不做连线的话只能水平方向,连线可以多方向,但可能是扭曲的不规则形状

 

おすすめ

転載: blog.csdn.net/zx_good_night/article/details/88812379