元の論文のタイトル: 大規模オブジェクト検出のための空間認識グラフ リレーション ネットワーク
コードアドレスは次のとおりです。
SGRN https://github.com/simblah/SGRN_torch
1. GNN をターゲット検出に適用する
この論文では、主要な意味論的および空間的関係を適応的に発見して組み込むことによって、大規模なロングテール データ分布と多数の混乱したカテゴリに直面した場合に CNN のパフォーマンスを強化する、GCN 強化された Faster R-CNN ネットワークについて説明します。この文書が作成されるまでは、この問題に対して 2 つのアプローチがありました。
1. 手動描画
つまり、データセットのリレーショナル グラフを構築するために従来のグラフ機械学習手法が使用されますが、その構造は比較的固定されており、属性と関係の注釈に大きく依存しています。
2. 視覚的特徴からの暗黙的な学習
上記の方法と比較して、機械学習の使用により、アルゴリズムはより汎用性があります。ただし、グラフ全体が接続されているため、多くの冗長な接続とノイズが発生し、モデルの結果に干渉します。
上記 2 つの方法に存在する問題を考慮して、この論文の著者は、スパース グラフ学習器モジュールと空間認識畳み込みモジュールの2 つの部分で構成される SGRN ネットワークを提案します。
このシステムでは、提案領域はカテゴリ間のグラフを構築するのではなく、グラフ ノードとして定義されます。これにより、不要なネガティブ領域(背景) のオーバーヘッドが削減されます。次に、学習可能な空間ガウス カーネルによって駆動される空間認識グラフ畳み込みが実行され、領域のコンテキスト表現が伝播および強化されます。
SGRN は、学習グラフの領域で適応グラフ推論をサポートします (不均衡なクラスの問題は重みを共有することで解決できます)。一部のひどく遮蔽された/カテゴリがぼやけた/小さな領域も、この方法で修復できます。
2. ネットワーク構造
上図に示すように、従来の Faster R-CNN と比較して、分類器と線形回帰モジュールが SGRN モジュールに追加されています。同時に、このモジュールは、SSD や YOLO などの既存のターゲット認識ネットワークに簡単に重ね合わせることができるとも記事で説明されています。
SGRN ネットワークは、地域関係を無向グラフ G=(N,E) としてエンコードします。リレーショナル グラフ学習者は、視覚的特徴から、解釈可能な疎な隣接行列 (オブジェクトを識別するために最も関連性の高い接続のみを保持します) を学習します。次に、前のレイヤーの重みが結合されて各領域にソフトにマッピングされ、各領域の視覚的な埋め込みになります。空間認識グラフ推論モジュールは、疎な隣接行列とガウス カーネルに基づいて、さまざまな領域の視覚的な埋め込みを進化させ、伝播します。空間グラフ推論モジュールの出力は、分類と位置特定を改善するために生の領域特徴に連結されます。
1. 関係グラフ学習器
関係グラフ学習器の目的は、提案された領域と検出されたオブジェクトの間の関係グラフを作成することです。無向グラフは次のようにマークされます。ここで、N はノード セットを表し、エッジ セットを表します。ノードの近傍は、エッジ セットの隣接行列を学習することによって決定されます。
形式的には、視覚特徴の D 次元ベクトル(特徴ベクトルはサイズ D の行列に属します) が提案領域から抽出され、非線形関数によって空間にマッピングされます<本稿では ReLu を使用します> 。と呼ばれます:
グラフの隣接行列は次のように書くことができ、エッジ ベクトルは次のように書くことができます。
負のサンプルの問題
実際の生成では、何も制限を加えないと、このグラフは近傍の負のサンプル(背景)をグラフに大量に埋め込んでしまうため、行列のスパース性を制限する必要があります。この論文では、提案された領域 i ごとに、隣接行列の埋め込み行 (最初の t 最大値) ベクトルのみが予約され、次のように表されます。
セマンティック埋め込み
カテゴリごとに高レベルのセマンティックなビジュアル埋め込みを作成します (追加のセマンティック情報を 特徴ベクトルに提供できるため、深刻なオクルージョンやブラーの問題が軽減されます)
これは、分類子から重みを抽出することによって実現できます (分類子の重みは、すべてのグラフの活性化特徴であり、当然意味情報が含まれています)。重みは次のように表すことができます: C はカテゴリの数、D は視覚的な次元です。
マッピングの方法はソフト マッピング を使用でき、形式は次のとおりです: : ; 行列への変換の形式は次のとおりです。
2. 空間認識推論モジュール
エッジガイド付きグラフ推論は、学習されたリレーショナル グラフ (ノード セットとエッジ セット) に基づいて新しいオブジェクト表現を学習するために使用されます。
対の空間情報を取得するために,対の擬似座標を使用して位置を記述します.本論文では,それを記述するために極関数を使用します.極関数の2つの要素は, 2つの間の長さ情報と角度情報を表しますそれぞれポイント。計算式は次のとおりです。
隣接ノードの影響と伝播重みについては、k 次のガウス カーネル関数で記述され、その式は次のように記述されます。
このうち、k 次のガウス カーネル関数は次のように表されます。
上の式で、とkは学習可能な 2x1 平均ベクトルと 2x2 共分散行列です。これは、領域の空間情報のエンコードです。モジュールの構造は次のとおりです。