ターゲット検出、インスタンスのセグメンテーション、およびマルチターゲット追跡のためのアンカーフリー アプリケーション方法の概要

 
  
 
  

上の「 Xiaobai Learning Vision 」をクリックし、「スター」または「トップ」を追加することを選択します。

重磅干货,第一时间送达

はじめに この記事では、ターゲット検出、インスタンスセグメンテーション、マルチターゲット追跡におけるアンカーフリーの研究状況、アンカーフリーの関連論文、さまざまなアプリケーションにおける研究アイデアや革新的なアイデアを紹介します。この記事を読むと、アンカーフリーについてより包括的かつ明確に理解できるようになります。

著者: ヤン・ジーフー

住所: https://www.zhihu.com/people/18158332186

私は昨年5月からアンカーフリーワークに注目しています。今回はグループ内で論文の読み物を共有する機会を利用して、アンカーフリーに関連するいくつかの作業を整理しました。一方では、物体検出の分野における最近の取り組みを共有すること、他方では、昨年人気のあったネットワーク モデル CenterNet と FCOS をレビューし、それらをセグメンテーションやマルチタスクなどの他のタスクに移行する際のことを考えます。ターゲット追跡、皆さん、どうやって設計していますか?

3b54b69fce1f16ac9d834e05aedd5450.png

e07a867cd70893ead293d4df5e875993.png

5f51aa9da844e87e826ab2a14647f4a0.png

01

まず、ターゲット検出におけるアンカーフリーの応用を見てみましょう。まず第一に、なぜアンカーがあるのか​​に答えなければなりません。以前は、物体検出の問題は通常、いくつかの候補領域の分類および回帰問題としてモデル化されていました。1 段階検出器では、これらの候補領域はスライディング ウィンドウ法によって生成されたアンカーです。2 段階検出器では、候補領域は RPN によって生成された提案ですが、RPN 自体は引き続き、次のように生成されたアンカーを分類して返します。スライディングウィンドウ方式。

f6ead8bea990f76f4431eb2ba5e5ec8b.jpeg

ここで挙げたいくつかのアンカーフリーの方法は、別の手段で検出の問題を解決します。CornetNet は、ペアのキー ポイント (左上隅と右下隅) を予測することによってターゲット フレームを特徴付けます。CenterNet と FCOS は、オブジェクトの中心点とフレームまでの距離を予測することによってターゲット フレームを特徴付けます。ExtremeNet は、オブジェクトの 4 つの極点を検出します。オブジェクト、4 つの極値点がオブジェクト検出フレームを形成します。AutoAssign も最近の論文で、アンカー フリー検出器の正および負のサンプル ラベルに対する新しい割り当て戦略を提案しています。Point-Set は ECCV 2020 の最近の研究であり、より一般化されたものです。ポイントベースのアンカー表現が提案されています。これは、ターゲット検出、インスタンスのセグメンテーション、姿勢推定の 3 つの主要なタスクを統合します。これについては後でさらに拡張します。

b8fdf88bb0e27d0ae17081d5820216a7.jpeg

まず、FCOS のネットワーク アーキテクチャを簡単に確認します。C3、C4、および C5 はバックボーン ネットワークの機能マップを表し、P3 から P7 は最終予測に使用される機能レベルです。これら 5 つのレイヤーの特徴マップの後には、分類、中心点の信頼性、および回帰予測に使用される 3 つのブランチを含むヘッドが続きます。全体的なアーキテクチャは非常にシンプルで、多くの人が FCOS の出力ブランチを変更して、インスタンスのセグメンテーション、キー ポイントの検出、ターゲットの追跡などの他のタスクを解決しています。

以下に、論文のバージョンを更新する際に原著者が行った 3 つの詳細な調整を列挙します. 1 つは、新しい中心点サンプリング方法を使用することです. 陽性サンプルと陰性サンプルを判断する際に、異なる段階のステップ サイズ値が考慮されます。陽性サンプルが入っているボックスのサイズを調整します。FCOS v1 のように gt bbox に該当するかどうかを直接判断するのではなく、この新しい中心サンプリング方法により、識別が困難なサンプルの数が減少し、中心性ブランチを使用するかどうかによって生じる精度の差も減少します。2 つ目は、リターンロスを GIoU 損失に置き換えることです。3 つ目は、FCOS v2 のさまざまな機能レイヤーが、パラメーターを回帰するときに異なる reg 範囲 (ストライドで分割) を使用することです。(FCOS v1 では、学習可能なパラメータが乗算されます。このパラメータは FCOS v2 でも保持されますが、重要性は低下します。)

ed7ac255881499409c79297ff600f776.jpeg

fcos の効果を改善するために、特にセンサーノイズや不完全なデータによる不安定な環境を考慮して、ターゲット検出器は位置予測の信頼性を考慮する必要があります。bbox の不確実性を予測するブランチを追加することを提案する人もいます。

ここでの不確実性は、bbox の 4 つのオフセットの分布を予測することによって取得されます。ここでは、各例が独立しており、多変量ガウス分布の出力と共分散行列の対角行列を使用して各 bbox のオフセットを特徴付けると仮定します。FCOS の分類、中心点、回帰の 3 つの損失に、bbox オフセットの不確実性を測定するために新しい損失が追加されます。以下で彼の実装を詳しく見てみましょう。

fff716242725dc2c229e16c968dd5cd4.jpeg

ここでのボックス オフセットは (l, r, t, b) で表されます。 アウトサイドデフォルト.png これらはネットワークの学習可能なパラメータです。B の次元は 4 で、 アウトサイドデフォルト.png これは bbox のオフセットです。計算された多変量ガウス分布は、 アウトサイドデフォルト.png 前述したものです。共分散行列の対角行列、

bbox オフセットの不確実性の損失をネットワーク設計に組み込むと、赤い線の左側の項目に焦点を当てることができます。予測されたガウス分布が実際の bbox と大きく異なる場合、ネットワークは非常に低い値になる傾向があり アウトサイドデフォルト.png ます アウトサイドデフォルト.png 。標準偏差が大きい アウトサイドデフォルト.png ということは、この時点の不確実性が非常に大きいことを意味します。もちろん、その背後には正則化と同様の制約があるため アウトサイドデフォルト.png 、制限がアウトサイドデフォルト.png大きすぎてはなりません。

7d6513a2ab4e6e68a884c8a4b3efb44c.png

FCOSと比較して、ResNet-50のフレームワークも使用されており、ココデータセット上でAPが0.8ポイント向上します。2 つの損失を比較すると、回帰も良好です。

594c5bffb9e99ee86835255372bbd9b9.jpeg

ポイントベースのネットワーク「Point-Set Anchors for Object Detection, Instance Segmentation and Pose Estimation」が回帰の考え方をどのように使用して、オブジェクト検出、インスタンス セグメンテーション、ポーズ推定の 3 つの主要なタスクを統合するかを見てみましょう。著者らは、これら 3 つのタスクを統合した最初の者であると主張しています。

著者は、物体検出の分野では、特定のしきい値を超える IOU を持ついくつかのアンカーが陽性サンプルを表すか、または物体の中心点を使用して陽性サンプルを表すかどうかが重要であると考えています。アンカーベースまたはアンカーフリーベースの方法に関係なく、元の画像内のポジティブサンプルの位置決めについては、回帰形式に基づいて、長方形の座標、または長方形の長さと幅 + を直接返します。長方形の中心点のオフセット。ある程度、アンカーはアプリオリな情報のみを表します。アンカーは中心点または長方形にすることができます。同時に、陽性サンプルと陰性サンプルの分布、分類、回帰など、より多くのモデル設計のアイデアを提供することもできます。機能の選択。すべての著者のアイデアは、ターゲット検出だけでなく、より多くのタスクに適用でき、より良い事前情報を提供できる、より一般化されたアンカーを提案できるかどうかです。

インスタンスのセグメンテーションとオブジェクト検出の場合は、中心点と n 個の順序付けされたアンカー ポイントの 2 つの部分を持つ左端のアンカーを使用します。各画像位置で、境界ボックスのスケールとアスペクト比を変更してアンカーを形成します。アンカーベースの方法と同じですが、いくつかのハイパーパラメータの設定が必要です。ポーズ推定のアンカーの場合、トレーニング セット内の最も一般的なポーズが使用されます。オブジェクト検出の回帰タスクは比較的単純で、中心点または左上/右下隅の点を使用して返すだけです。インスタンス セグメンテーションの場合、作成者は特定の一致基準を使用して、右の図の緑色のポイントセット アンカーのアンカー ポイントと黄色の gt インスタンスのポイントを一致させ、それを回帰タスクに変換します。

右側の 3 つの図は、緑と黄色の点を最も近い点に接続し、緑の点を最も近いエッジに接続します。右端では、著者の最適化された方法は、反対側の角の最も近い点の方法を使用しています。 、角度に応じて point によって得られた最も近い 4 つの点は、gt の輪郭を 4 つの領域に分割します。有効な gt 点(領域内にない場合は無効です。図の緑の白抜き点など)に対応するように、上境界と下境界の緑の点から垂直線を作成します。

99c1dfa53389eb6cadbc90c1c963ecfd.jpeg

一般に、Point-set は従来の長方形のアンカーを新しいアンカー設計方法に置き換え、セグメンテーションや姿勢推定などの並列回帰ブランチを先頭に付加します。図はそのネットワーク アーキテクチャを示しています。網膜ネットと同様に、著者はさまざまなスケールのフィーチャ レイヤーを使用しています。ヘッドには、分類、セグメンテーション ポーズの回帰、および検出ボックスの回帰のためのサブネットワークが含まれています。各サブネットワークは、ストライド 1 の 4 つの 3x3 畳み込み層、姿勢推定タスクでのみ使用される FAM モジュール、および出力層で構成されます。以下の表には、3 つのタスクに対応する出力層の寸法がリストされています。

ff1e28d17d4b945c70ab7ab54c0b987e.jpeg

その損失関数は非常に単純で、分類には焦点損失を使用し、回帰タスクには L1 損失を使用します。

著者は、ターゲットの正規化とアンカーの形状への事前知識の埋め込みに加えて、アンカーをさらに使用して特徴を集約し、特徴変換の不変性を確保し、多段階学習に拡張する方法についても言及しました。

(1) 変数畳み込みの学習可能なオフセットをポイントベースのアンカーのポイントの位置に置き換えます。

(2) この人体形状の退行により、検出は比較的困難になります。一方で、特徴抽出には非常に大きな要件があり、他方では、異なるキーポイント間に違いがあります。したがって、著者は、第 1 段階の姿勢予測を第 2 段階 (分類、マスクまたは姿勢回帰、バウンディング ボックス回帰) のアンカーとして直接使用することができ、追加の改良段階を姿勢推定に使用することを提案します。

b049076a2dedd8ad63979c241c724958.png

02

以下はインスタンス セグメンテーションの分野における 3 つのモデルです。これらはすべて FCOS の実践を参照しており、ターゲット検出におけるアンカーフリーのアイデアをインスタンス セグメンテーションのタスクに移行しています。ネットワークの具体的な詳細については説明しませんが、ここでは、インスタンスのセグメント化タスクを解決する際に FCOS のアーキテクチャ全体に加えられた調整についてのみ説明します。

ab46e1cb5b06fd734ab8e51a7db641fa.jpeg

最初に CenterMask について説明しますが、これは彼のアイデアが非常に単純であるため、最前線に置かれていますが、この構造は FCOS + MaskRCNN のマスクの分岐として理解できます。

4cf38e2bac87bc080db64affb2fdd7b3.jpeg

FCOSと比較すると、入力画像はFCOSを介してターゲットフレームを取得しますが、この部分は同じです。その後、MaskRCNN と同様に、ROIAlign を使用して対応する領域をトリミングし、サイズを 14 x 14 に変更し、最後にマスク ブランチによる損失を計算します。考え方はとてもシンプルです。

5c0370563b482365e5e51d873c43f2d1.jpeg

2 つ目は EmbedMask で、おおよその精度を確保することに基づいて、最速速度は MaskRCNN の 3 倍に達します。これは、セマンティック セグメンテーションを直接使用してセグメンテーション結果を取得し、次にクラスタリングまたは何らかの手段を使用して同じインスタンスを統合して最終的なインスタンス セグメンテーション結果を取得するのと同じ、1 段階の方法を採用しています。

e606fa99525e2dde3149e203a8e6c0ed.jpeg

ネットワーク全体の構造は上の図に示されており、まだ FPN 構造です。ピクセル埋め込みは P3 で最大解像度の特徴に使用され、各ピクセルは D 長ベクトルに埋め込まれているため、最終結果は HWD 機能マップです。次に、各特徴マップ P3、P4、P5、P6、および P7 の提案ヘッドを順番に使用します (従来のターゲット検出のヘッドです)。改善点は、各提案が D 長さのベクトルにも埋め込まれることです。マージンを使用して、2 つのエンベディング間の関連度を定義します。マージンがエンベディングより小さい場合、ピクセルとプロポーザルは同じインスタンスとみなされます。しかし、この記事では人為的に定義されたマージンを使用することを提案しており、これではいくつかの問題が発生するため、この記事では、結果図に示されているプロポーザルマージンのように、ネットワークが各プロポーザルのマージンを自動的に学習できる学習可能なマージンを提案しています。 。FCOS と比較すると、EmbedMask には図の青いモジュールが追加されています。

EmbedMask と CenterMask は、インスタンス セグメンテーションなどの 1 段階検出アルゴリズムに基づいていますが、その核心部分は変わっておらず、提案からマスクを生成するのに十分な十分な検出器に基づいています。これが非常に効果的であることは事実によって証明されており、十分に優れた検出器に基づくインスタンス セグメンテーション手法は、より多くのマスクを見つけるのに役立つだけでなく、これらのマスクの生成により検出器自体の効果も向上します。したがって、これら 2 つのインスタンス部門のボックス AP が FCOS よりも高いことがわかりますが、これは当然のことです。

a22c6bb388e96b178e6ebbad2991c033.jpeg

3 つ目は PolarMask です。これも FCOS に基づいており、FCN のフレームワークの下でインスタンスのセグメント化を統合します。PolarMask は、360 度の極座標を 36 点に分割し、その 36 方向の極座標の端から中心までの距離を予測して物体の輪郭を求める新しいインスタンス セグメンテーション モデリング手法を提案します。

49166ccf154900b6e21bc2f9e57d0c9a.jpeg

74572a30402e342b79b77c34d1926b79.png

03

3 番目の部分は、マルチターゲット追跡の分野における私の懸念事項の一部であり、ここでは主に CenterNet に基づいた 2 つの拡張された研究を比較します。まず、MOT (Multi-Object Tracking) のタスクを簡単に紹介すると、ビデオの各フレームでオブジェクトを検出し、各オブジェクトに ID を割り当ててターゲットを追跡する必要があります。

9c50808fe9bcb9211fd38cfe9b8607c2.jpeg

CenterTrack は CenterNet のオリジナルの作成者の作品であり、ターゲット検出タスクをマルチターゲット検出に拡張する場合、作者はオブジェクトの中心点を追跡することで追跡問題を解決します。マルチターゲット検出タスクには 2 つの鍵があります。1 つは、遮蔽されたオブジェクトを含む各フレーム内のオブジェクトを検出する必要があること、もう 1 つは、時間次元でオブジェクトの ID を照合する必要があることです。

97ec76ddfd6a1fc71ebb7bf6ce4967ce.png

下の図の赤い領域は Track タスクを解決するためのものです. 時刻 t の画像 アウトサイドデフォルト.png , 時刻 t-1 の画像 アウトサイドデフォルト.png , 時刻 t-1 で検出されたすべてのオブジェクトが入力されます アウトサイドデフォルト.png . ここの赤い領域はターゲット検出とは異なりますタスク。 、4 つの新しいチャネルを追加します (そのうち 3 つは画像の入力であり、1 つのチャネルの計算は後で拡張されます)。

出力部分では、ネットワークは、検出された中央ピーク点のヒートマップと予測された長さと幅の特徴マップを出力することに加えて、2 つのチャネル間のオブジェクトの移動距離を表す 2 チャネルのオフセットも出力します。フレーム。

aabf2ef28787341828abfa3b367b9f97.jpeg

左側がネットワークの入力、右側がネットワークの出力です。数学的には、I は画像入力、T の b は bbox を表し、右側は検出された中央ピーク点、長さと幅の特徴マップ、およびオブジェクトの動きのオフセットです。

5075f7655efec83eab96714d136e5e5.jpeg

上記は、ネットワークトレーニング中の中央ピーク点、長さと幅の特徴マップ、およびオブジェクトの動きのオフセットに対応する 3 つの損失関数の具体的な式です。中心点予測のタスクを解く際に、ここでは焦点損失が使用されます。x と y はヒートマップ上の点の位置を表し、c はカテゴリを表します。Y は 0 と 1 に属するピーク マップであり、 アウトサイドデフォルト.png ガウス形状の盛り上がったピークであり、各位置について、特定のカテゴリ番号に中心点があれば、対応するチャネルにピークが形成されます。各位置の最大傾斜高さ。ここで、p は中心点を表し、q は位置を表します。これらの最大傾斜高さを取得したら、ネットワーク入力の一部として 1 チャネルのヒートマップにそれらを入力します。そして、前のフレームの 3 チャネルの画像は、追跡タスクを解決するときに前述の 4 つの新しいチャネルの入力を構成します。

長さ、幅、オフセットの損失の計算には、単純な L1 損失が使用されます。十分に優れたオフセット予測があれば、ネットワークは直前の目標と相関付けることができます。検出された各位置 p に対して、以前の最も近いオブジェクトと同じ ID を割り当てます。半径 κ 以内に以前のオブジェクトがない場合は、新しいトラックを生成します。

65552ab3714f0bd70adffbe0b7aa0099.jpeg

FairMOT も、CenterTrack と同時代の CenterNet の成果に基づいています。CenterTrackの前後フレームでの対象フレームの移動距離オフセットの導入とは異なり、再識別の考え方を取り入れており、検出ブランチには、分類タスクとしてのターゲットの ID 認識。トレーニング時には、すべてのトレーニング セット内の同じ ID を持つすべてのオブジェクト インスタンスが 1 つのクラスとみなされます。128 次元の埋め込みベクトルを特徴マップ上の各点にアタッチし、最後にこのベクトルを各クラスのスコア p(k) にマッピングします。ここで、 k はカテゴリの数 (つまり、出現した ID) で、 アウトサイドデフォルト.png は gt のワンホット エンコーディングであり、最後にソフトマックスを使用して損失を計算します。

(2020 年 7 月 24 日更新: ここでの埋め込みを分類にマッピングする方法について疑問を持つ人もいるかもしれません。後続のフレームに多数の新しい人物が表示されると、FairMot はこれらの新しい人物に正しい新しい ID を与えることができますか?この問題を解決するために、トレーニング中に分類損失を使用し、テスト段階での判断に cos 距離を使用します。また、リードが信頼できない場合は、bbox IOU を使用して照合します。具体的には、リードの埋め込みが bbox と一致しない場合は、 IOU を使用して前のフレーム内の可能な追跡ボックスを取得し、それらの間の類似性行列を計算し、最後にハンガリーのアルゴリズムを使用して最終結果を取得します。)

1e266ac33bc6d0d002c614c5f67fd3b6.jpeg 4f0abd620189810c05284acbe30b9829.jpeg

最後に、今回調べて整理する過程で参考になった技術記事へのリンクをいくつか添付します。

https://zhuanlan.zhihu.com/p/62103812

https://zhuanlan.zhihu.com/p/158054890

https://zhuanlan.zhihu.com/p/62372897

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。


下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

おすすめ

転載: blog.csdn.net/qq_42722197/article/details/131238461