ピクセルアグリゲーションネットワーク(ネットワーク任意形状テキストの画素重合効率的かつ正確な検出を使用して)と効率的かつ正確な任意形状テキスト検出

PSENet V2はちょうど昨日、左、今日は以下の翻訳を学びます。

  シーンテキスト検出も大きな進歩を遂げた畳み込みニューラルネットワークシーンテキスト検出の急速な発展に伴い、重要なステップのシーンテキスト読み上げシステムです。それにもかかわらず、現実世界に展開テキスト検出アプリケーションを妨げる二つの大きな課題が残っています。最初の問題は、速度と精度のバランスです第二の例では、任意形状モデリングのテキストです最近、いくつかの方法は、任意の形状検出のテキストに対処するために提案されてきたが、それらはほとんど実用的なアプリケーション環境に制限することができるアルゴリズムの稼働時間と効率性を考慮していません。この論文では、低計算コストと学習可能な後処理方法セグメンテーションモジュールが装備されているPSENet V2と呼ばれる任意の形状を効率的かつ正確なテキスト検出器を、提案します。
  具体的には、分割モジュールピラミッドエンハンスメントモジュール(機能ピラミッド拡張モジュール、FPEM)と特徴統合モジュール(機能融合モジュール、FFM)組成ことを特徴とします。FPEM多段情報は、より良いセグメンテーションを導くために導入されてもよい、U字状のモジュールをカスケード接続することが可能です。FFMは分割されてもよいFPEM所与異なる深さは、最終的な機能に収束する特徴。画素を処理した後、類似度ベクトル予測によって正確にテキストピクセルを重合させることができる達成するための集約モジュール(ピクセル集約、PA)によって知ることができます。実験いくつかの標準的なベンチマークが提案PSENet V2の優位性を示します。それは私たちの方法はCTW1500上のF値の84.2 FPSに79.9パーセントを達成できることは注目に値します。我々の知る限りでは、PSENet V2は、テキストの方法の任意の形状の例の最初のリアルタイム検出です。

図1湾曲したテキストデータセットCTW1500のパフォーマンスと速度。PAN-640は、CTD + TLOCより10.7%良好であり、PAN-320は、EASTよりも4倍高速です。

1.はじめに

以上の説明の一部が省略され、PANを参照してください。

彼はテキスト検出器(画素アグリゲーションネットワーク、PAN)製の任意の形状は、速度と性能、すなわちピクセル攻撃ネットワークのバランスをとることができると述べました。図2に示すように、2つだけの工程:1)再構成カーネルの予測テキストエリアネットワーク、カーネル類似性ベクトル及び2)を分割することにより、効率的な達成するために、フルテキスト・インスタンスを予測し、両方の計算ステップを低減するために必要時間。まず、軽量部門のバックボーンが必要です。本論文

おすすめ

転載: www.cnblogs.com/ariel-dreamland/p/11390144.html