[注]アンカーをガイド付き紙:ガイド付きアンカーによって、地域提案

概要&紙

トピック:ガイド付きアンカーによって、地域提案

作者&出处:Jiaqi王、甲斐陳、朔ヤン、陳変更ロイ、大化林|| CUHK-センス時間共同研究室、香港中文大学、アマゾンRekognition、ナンヤン工科大学

アドレス取得:https://arxiv.org/abs/1901.03278

 

まとめと個人的な見解&

提案されたメカニズムをアンカーガイド、セマンティック機能を使用すると、生成されたアンカーを案内します。形状に生成された非均一の位置と形状の独立予測を組み合わせることにより、任意のアンカーを有しています。スライディングウィンドウメカニズムを使用してポストRPNに比べてこの方法は、9.1%の上昇とリコールアンカーの数は10%減少を生じ、また、2.7%向上、アンカーベースの検出器にも適用することができます。

大幅に生成されたアンカーの数を削減するように本論文では、多くの場所がある私は、理解しますが、一般的に良いアイデア、特にコンピューティング・アンカー内の位置と形状にして、両者の間の相関関係を考慮していませんそして、品質が増加しています。

 

&貢献

1)非任意の形状とアモルファスアンカー新しい戦略を予測することが提案されている、むしろアンカーと密な間隔の所定のセットを使用するよりも、

2)2つのアンカー分布状態の関節分布の分解は、設計及びモデルれます。

3)特性と応答アンカー重要整列、アンカーの形状を改良するための電位調整モデルに基づいて設計された機能の。

 

解決すべき問題&

質問:プリセットが最適ではない、現在使用統一アンカー戦略

分析

アライメント&一貫性:合理的なアンカーの設計は、2つの原則があります。

畳み込み特徴付けアンカーとして特徴付けられる1)、図の特徴の中心アンカーは中央対応する位置合わせを必要とします。本明細書中で、すなわち、アンカーの中心位置は、ストライドの整数倍である、原画像中の各アンカーの中心を指し、位置ずれ、スループールにおけるサンプリング/コンボリューション処理が発生しません。このような観点から、直接アンカーを使用する方法に基づいて思考の現在主流のサイズとアスペクト比に応じてアンカーを選択するために、そのアンカーの中心点として、図画素に対応する特徴、および

2)受容野とセマンティック範囲(スコープ)は、図のアンカー寸法の異なる位置が一致する形状特徴量と一致しなければなりません。その使用の受容野のアンカー効果的な範囲の寸法および形状と矛盾S3FD原理に反しないことを効果的に受容野に基づいて、と述べました

 

これらの2つの原則に基づいて、現在のように使用される統一された戦略のアンカー:特徴マップ上の各位置は、k個のアンカーの寸法およびアスペクト比を事前定義しています。そして、これはまだ欠陥がある最適な方法ではありません。

  • アンカーの所定の固定セットアスペクト比、及びエラー検出器に異なる問題の設計速度と精度を妨害することができます。
  • 十分に高い再現率を維持するために、我々はアンカーを大量に使用する必要がありますが、それらのほとんどは負のアンカーであり、重いクラシファイアの候補領域を使用する場合は特に、かなりの計算のオーバーヘッドになります。

 

観察および分析によれば、画像の目標を均等に分散されていない、スケール及びターゲット画像のコンテンツに、その位置とシーンの幾何学的形状に密接に関係しています。最初のターゲットを含むことができるサブフィールドを決定し、その後、異なる位置でのアンカーの形状を決定する:したがって、先験的の手動選択(手摘みpirors)問題、方法を低減します。

この方法のスケールとアスペクト比が可変であり、図適応画素を特徴付けるので、異なる機能がそれぞれのアンカーの適切な(FIT)を学ぶ必要があります。これは、アンカーの一貫性の原則を損ないます。幾何学的特徴に基づいた効果的なアンカーモジュールを提案します。

 

前の方法

GA

スライディングウィンドウ集中正規選択することにより、アンカーを

より良いガイド生成疎に、機構の使用をスライディングウィンドウメカニズムを除去アンカー

過剰使用は、検出器をカスケード接続1つの。ステージを漸進的にリファイニング検出するバウンディングボックスを速度を推測する、より多くのモデルパラメータを導入する、減少する、使用RoIのプーリング/整列をするバウンディングボックスが対応する特徴を抽出するための位相検出器と候補領域生成費用が高すぎます

 

アンカーフリー単純な使用方法パイプラインを単一のステージを使用して、最終的な検出結果を生成します。アンカーとベースのアンカー精錬の欠如は、複雑なシナリオと例を扱うことができません

焦点は、スパース、非アモルファスであるアンカー候補領域検出性能の品質を向上させるために使用される選択機構。したがって、対処する必要性ミスアライメント&矛盾の問題を。

いくつかのシングルショット絞り込むために、複数の回帰と分類を使用して検出器アンカーを

ない次第に洗練されたアンカーが、直接予測アンカー分布、この部分は、に分解される位置及び形状予測

何ら考慮アンカーない機能、したがって重回帰間に整列アンカー、破壊アライメント&一貫

予測アンカー形状、固定アンカー次いで中央、及び予測特徴的な形状に基づいて調整します。

 

 

 

フレームワークと主な方法&

図1に示すように、メインモデル

  

2、関節分布分解

P(X、Y、W、H | I)を| P P(I X、Y)=(H、W | X、Y、I)が

この確率分布は、2つの重要な情報を分解することができるから:ゾーン1)画像は、対象地物中に存在することができる; 2)密接ような寸法、アスペクト比、及び位置として、ターゲットの形状に関連します。上記確率は、アンカーピクチャの予測に分解することができる一方、予測はアンカーの中心、及び形状の予測された中心を分解する。

 

図3に示すように、位置予測アンカー

|(F・ブランチは、p型確率分布を予測I F特徴マップ与えるために、)Iを目標確率の中心のために可能なすべての場所で。P |(X、Y F. I相当する位置)私は((X + 1/2)であり、画像内の S、(Y + 1/2)S) 、前記中央に、及び受容野の画像に対応Sは、図のストライド特徴です。

F.このサブネットワーク内のIターゲット畳み込みスコアマップを得るために、1×1を使用し、次いで元素ステージによってシグモイド関数の対応可能性に変換します。サブネットワークの使用は、より深く、より正確な予測を得ることができ、変換シグモイド層に畳み込みを使用することは、効率と精度との間の良好なバランスを達成することができます。

この図の可能性、同じリコールを維持しながらフィルタリングすることが可能な面積の90%の閾値。画像は、上記の図の可能性を示します。排他ゾーンのない考慮ので、畳み込み畳み込みマスク層が交換された保証、より効率的に推奨されます。

 

図4に示すように、予測されたアンカーの形状

、分岐予測にアンカー形状、位置の予測とそれぞれH、W、最も近いグランドトゥルースと最大カバレッジ・ボックスを有効にします。しかしながら、ダイレクト予測に大きすぎる(H、W)、最終的な精度を許容するので、変換は次の形式を使用していません。

W = P S; E; DW、H = P S; E; DH

より安定した予測結果も簡単であるように、最終的な予測(DW、DH)に変換し、この場合σ= 8であり、全体の[0、1000]が[-1 1]の範囲に変換されます。

関連のみ動的予測形状と各アンカーの位置は、それが任意のアスペクト比を可能にすることができるので、この方法は、より良い高すぎる又は広すぎる標的を捕捉することができます。図上方(左)(右)の表示に対応したアンカーの形状および位置によって生成されたアンカーのアスペクト比の予測変化、です。

 

。5、ガイド付き適応前記レコード

RPNは、従来の単段または事前定義されたアンカーを使用して検出、同じスケール及びアスペクト比を共有する各アンカーの位置、従って、一貫した機能の特性図を学習することができます。従来の方法は、適切なアンカーネットワーク処理ではないので、この時点では、異なる場所のそれぞれにアンカー形状は、それが使用されます。

分析によれば、符号化されたコンテンツは、コードの小さな範囲に対応し、大アンカー広い範囲であろう小さいアンカーです。したがって、潜在的に変換アンカー位置の特徴的な形状に基づいて、各個体について行うアンカー誘導機能適応を提案しました。

、 F I '  = NをT( 、 F I、W I、H I

F Iは LOCATIONである(X I、Y Iは)、N Tは、変形可能層畳み込みの3×3です。

まず、予測された出力分岐予測オフセットフィールド形状から、次いで、調整機能はバウンディングボックスの分類および回帰を行うことができた後に、これは、図「はFiが得られた元のコンボリューションの変形可能な特性を利用してオフセット使用。

 

図6に示すように、損失のセット

L = λ 1 LのLOC + λ 2 L  + L CLS  + LのREG

上記の形状と位置の追加損失に分類と回帰に基づいて機能の全損失は、です。

損失計算の1)場所

各画像のための効果的な位置1アンカーの位置を表すバイナリタグダイヤグラムを必要とします。このプロセスでは、グランドトゥルースの使用は、バイナリラベルを生成する手段と、あまり遠く、より効果的な場所を持つことができ、ターゲットの近傍に望ましいです。使用(X G、Y G、W G、H Gは)、グランドトゥルースボックスを表す(X G 'Y、G W、' Gは 'H Gの結果')グランドトゥルースボックスが対応する特徴マップのスケールにマッピングされ表します。R(X、Y、W、 H) 矩形のそれぞれ(H、W)を中心として、(X、Y)で表される、幅と高さ。アンカー所望のバウンディングボックスは、バウンディングボックスの領域の三種類のそれぞれを規定するように、より大きなIOUの初期化を得るために、中心の近くに配置することができます。

  • = R&LT CR(X G 'Y G '、σは1。 W 'σは1つの。 H')BBOX中央領域を表し、陽性試料の一部とみなされる領域。
  • = R&LT IR(X G「Y G」、σは2 W「σは2より大きな外側領域を示す以外H」)\ CR CRは、この領域は、グレーゾーンの概念に似て、無視できる程度に分割されています。
  • OR CRおよびIR領域の追加である、サンプルは負です。

 

多層FPNの層の使用を特徴は、CRは、図2の特性スケールを一致させる際各層はこれだけ特定の特徴、特定のスケール内で目標範囲を設定することでのみ関係であり、また階層の相互作用を考慮に隣接しています。存在し、隣接する層の同じ領域は、図に示すように、特に、IRに設定されています。場合多目的重なり、CRは、IR、IRを同時にまたは阻害する阻害します。CRのみ特性図の小部分に存在するので、焦点損失分岐位置を訓練するために使用されます。

 

損失2)形状計算

まず、対応するグランドトゥルースアンカーが一致すると、その後、グランドトゥルースに一致する最大IOUは、wとhを予測することができます。

WH = {(X 0、Y 0、W、H)| > 0、H> 0}、GT = W(XはG、YのG W、G、HのG

=最大IOU vIoU 正常(AL WH、GT)

グランドトゥルースとの任意の場所については、vIoUを計算することは非常に複雑であり、効果的に最後までネットワーク側を設計することは困難です。このような近似の方法を使用する:所与の(X用0、Y 0)、Hアナログ値、Wいくつかの一般的に使用されるサンプリング、すべてのwのH列挙。その後、計算され、アンカーGT vIoUがサンプリングされます。実験では、そのようなRetinaNetの規模やアスペクト比などの選択されたグループ9(H、W)。以下のように、最終的な損失が計算されます。

 

7つの結果

2つの原則のアンカーの場合:全体的な結果に及ぼす影響のアライメント&一貫性の実験的検証、以下に示すように、その2つの原則の場合のリコール保証の改善に大きな役割を果たすことができます。前記AR 100,300,1000の提案の数。

 

この論文で提示3つのトリックため、切除位置、形状及び実験の特徴適応は、2つの部分にアンカーを選択することを示す:位置算出結果の形状が大幅に向上しており、ほとんどの増加の特徴適応結果後5つのまたはそうポイント。

  

次の表は、使用される検出方法の異なる方法の比較元とGAアンカーを使用して生成されるGAから見ることができる2つの点についての平均向上させることができます。

図はそれぞれグランドトゥルースとGAの使用、ウィンドウコンパレータを摺動するアンカーの寸法およびアスペクト比の分布を生成し、予め定義されたスライディングスケールを使用してウィンドウとアスペクト比は、より低いアンカーを図多様で生成されていません、アンカーを介してGAは接地ボックス真実の分布に沿ってより多くを生成しました。

 

以下の表は、低いながら、すなわち、より高品質の使用RPNアンカー用の比較結果が、それは、RPN GA有意に優れた戦略を使用して見ることができ、GAモジュールを使用して高速R-CNN RPNモジュールRPNのためのものですまた、GA-RPNアンカーで生成図RPNはRPNに対して、コントラストを表示し、アンカーによって生成された高品質のGA-RPN、小さい数です。

  

&問題が発生しました

図1に示すように、分岐位置に、オブジェクトの可能性は、各位置に対して計算される、計算する方法、それが認識されない任意のオブジェクトが表示された場合ではないのだろうか?しきい値を無理に設定されている場合、結果は真の値の出現から逸脱する、しきい値が選択する方法をすべきですか?

図2は、この場合に使用されるアンカー位置に基づいて、得られた形状、正常な状況ならば、分岐予測は、動作が変更されてもよい方法をここで、(H、W)セットを形作る予測することができますか?

3、あなたは同じアンカーRetinaNetの設定を使用する場合、RetinaNet場合、それは直接9つのアンカー最大で、コントラスト、あなたがアンカーを設定するための類似の方法は、この結果を達成する可能性を秘めている使用することができることを意味していコンピューティングのIOU、なぜ結果を形状および予測GAが同じですか?RPNの性能に対するGAの方法は、位置の点で増加し、オフセットが主な原因の増加しましたか?

4、計算vIoU、同じ面積はGT 2以上を覆われている場合、H、W最大カバレッジを求めて、いいですか?

 

リフレクションとインスピレーション&

分解の最も明るい点を予測している。この論文は大きく、操作の統合続くアンカー位置と一対の形状を予測し、及び形状の予測によるだけでなく、寸法およびアスペクト比の広い範囲を取得します試験サンプルの難易度の検出精度を向上させます。オリジナルのミッションへの可能な複数のタスクへのタスクは、パフォーマンスを改善する上で役割を果たしました。

いくつかの問題はまだありますが、知って取得していない、我々は、再統合後、部分に対応するコードを見てする必要があります。

 

おすすめ

転載: www.cnblogs.com/fanzhongjie/p/11615432.html