【グラフニューラルネットワーク】ビジュアルグラフニューラルネットワークViG(Vision GNN) - 論文読解

国際的な実践:

論文アドレスicon-default.png?t=N2N8https://arxiv.org/pdf/2206.00272.pdf git アドレスicon-default.png?t=N2N8https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/vig_pytorch        以前の GNN と CNN の組み合わせとの比較 画像処理アルゴリズムでは、ViG は革新的に特徴抽出に GNN を直接使用します。ViT と同様に、グラフ構造を構築するために CNN によって抽出された特徴を使用する必要がなくなりました。ViT については、以下を参照してください。

[セルフアテンション ニューラル ネットワーク] トランスフォーマー アーキテクチャicon-default.png?t=N2N8https://blog.csdn.net/weixin_37878740/article/details/129343613?spm=1001.2014.3001.5501         ViT の 3 番目のセクションでは、両者とも非常に優れた特性を持っているのは偶然です。アイデアの類似性。

I. 概要

        ViG は 2 つのモジュールで構成されます

                ①Grapherモジュール:グラフ畳み込みを利用してグラフ情報の集約と更新を実現します。

                ②FFNモジュール:2つの全結合層を使用してノード特徴の変換を実現

        画像タスクの場合、CNN空間位置によってのみピクセル/パッチを並べ替えることができますが、Transformer ではグリッド構造がシーケンス構造に変換されますが、これは明らかに十分な柔軟性がありません。一方、GNN ではノードは自由に接続でき、制約はありません。局所的な空間構造による。

        画像をグラフ構造で表現すると、次のような利点があります。

                ① グラフは一般化されたデータ構造であり、グリッド構造もシーケンス構造も特殊なグラフとみなすことができるため、グラフの方が一般化能力に優れています。

                ②画像内の物体は必ずしも正四角形であるとは限らず、表現力を高めるためにグラフをモデリングに使用しています。

                ③ オブジェクトは部品の組み合わせとみなすことができます (グラフ構造はこの接続をよりよく表現します)

        しかし、グラフでグラフ構造を構築するにはいくつかの問題があり、その最大の特徴はデータ量が膨大になることであり、各ピクセルをノードとみなすと、多数のノードと接続がもたらされることになります。グラフ構造。論文では、画像はいくつかのパッチに分割され、これらのパッチは後続のグラフ構造の構築に使用されます。

2. ネットワーク構造

        1. 画像のグラフ構造

                ①H\times W\times 3画像を N 個のパッチに分割します。

                ②各パッチを固有ベクトルに変換しx_i\in R^D、結合して固有ベクトルの行列を取得しますX=[x_1,x_2,...x_N]

これらの固有ベクトルは、順序付けされていないノードのセットとして見ることができ、 として表されますV=\{v_1,v_2,...v_N\}

                ③ 各ノードについてv_i、K 個の最近傍ノードを見つけます。これらの近傍ノードのセットは として示され、N(v_i)セット全体の近傍ノードから までのエッジをv_j追加しますv_jv_iえ_{じ}

                ④最後に、ノード集合Vとエッジ集合から\バレプシロングラフ構造を取得できます。G=(V,\バレプシロン )

        2. グラフの畳み込み

隣接するノードの特徴を集約してノード間の情報交換を実現するため                に使用され、その対象となるのが上記のグラフですG=(V,\バレプシロン )

                ①情報集約

                        {G}'=F(G,\omega )=Update(Aggregate(G,W_{agg}),W_{update}), ここでW_{集合体}、 と はW_{更新}学習可能な重みです。

                この操作をノード レベルに調整すると、次のように表現できます。

                        {x_i}'=h(x_i,g(x_i,N(x_i),W_{agg}),W_{update})、ここで、 はN(x_i)ノードの隣接ノードのセットですx_i

                        関数 g( ) は最大の畳み込みです。g(.)={x_i}''=[x_i,max(\{x_j-x_i|j\in N(x_i)\})]

                        関数 h( ) は次のように表されます。        h(.)={x_i}'={x_i}''W_{更新}

                このプロセスではバイアスが省略されるため、式全体は次のように書くこともできます。{X}'=GraphConv(X)

                ②多重アップデートの仕組み

                        集約された特徴を{x_i}」h 個のヘッド ( 頭^1、頭^2...頭^h) に分割し、これらのヘッドを異なる重みで更新します。すべてのヘッドが更新され、結果の値が連結されます。マルチヘッド更新により、モデルは複数の表現部分空間内の情報を更新できるようになり、特徴の多様性にとって有益です。

                        {x_i}'=[頭^1W^1_{更新},頭^2W^2_{更新},...,頭^hW^h_{更新}]

        3. ViGモジュール

複数のグラフ畳み込み層を備えた GCN では、スムーズな遷移が                発生し、視覚的なパフォーマンスの低下につながります (多様性の低下によって引き起こされます)。この問題を軽減するために、ViG では、より多くの特徴変換非線形アクティベーションが導入されています

非線形活性化を備えたこの GCN を、この文書ではGrapher モジュール                と呼びます入力 の場合X\in R^{N \times D}、Grapher モジュールは次のように表すことができます。Y=\sigma(GraphConv(XW_{in}))W_{out}+Xここで、活性化関数は\シグマ通常ReLuまたはGReLuを採用し、バイアスは通常省略されます。

        4. FFNネットワーク(フィードフォワードネットワーク)

                FFN ネットワークは、完全に接続された 2 つの層で構成される多層パーセプトロンです。次のように記録できます。

                        Z=\シグマ(YW_1)W_2+Y、 ここで、 はW_1、W_22 つの完全に接続された層の重みであり、Z\in R^{N\times D}バイアス項は通常省略されます。ViG ネットワークでは、各完全接続層とグラフ畳み込み層の後にバッチ正規化が行われます。

3. ネットワークパラメータの設定

        ViG には、等方性アーキテクチャ(ViT に類似) とピラミッド アーキテクチャ(ResNet に類似) の 2 つのアーキテクチャがあります。

        1. 等方性構造

                ネットワーク全体のサイズと形状は同じですが、本稿ではモデルサイズの異なる 3 つのネットワーク ( ViG-TiViG-SViG-B ) を構築します。ノード数 N=196、隣接ノード数 k は 9 ~ 18 (受容野の拡張に使用)、ヘッド数 h は 4 に設定され、性能とサイズは次のとおりです。

         2. ピラミッド構造

                ピラミッド構造は層を重ねるほどマルチスケールの特徴が得られます.本稿では4種類のピラミッド構造のViGを設計しました.詳細は下表を参照してください.

                 表中、Dは特徴サイズ、EはFFNの隠れ次元の比率、KはGCNの受容野、H×Wは画像サイズを表します。

                位置エンコーディング: 各ノードに位置情報を追加するために、次の式によってエンコーディング ベクトルがノード フィーチャに追加されます。x_i\leftarrow x_i+e_iノード i とノード j の間の相対距離がe_i^The_j構築グラフのフィーチャ距離に追加されます (参照) ViTへ)。

4. 視覚化

        この図から、浅い層では、色やテクスチャなどの低レベルの局所的な特徴に基づいて隣接ノードが選択される傾向があることが明確にわかります。深い層では、中央ノードの近隣ノードはよりセマンティックであり、同じカテゴリに属します。

 

おすすめ

転載: blog.csdn.net/weixin_37878740/article/details/130124772