属性付きネットワークでのハイブリッド順序異常検出

目次

属性ネットワークに基づくハイブリッド次数異常検出

1 はじめに

2 評価された作品

3 表記法と問題の定式化

4 提案されたモデル

4.1 モチーフおよびモチーフ拡張による属性付きネットワーク構築

4.2 ハイブリッド次数属性ネットワーク エンコーダ

4.3 ハイブリッド次数属性ネットワーク デコーダ

4.4 損失関数と異常検出

5 実験

5.1 実験設定

5.2 比較結果

5.3 パラメータ分析

5.4 ケーススタディ

6 結論


属性ネットワークに基づくハイブリッド次数異常検出

ハイブリッド次数グラフ アテンション ネットワーク、HO-GAT: ハイブリッド次数グラフ アテンション ネットワーク

要約: 属性ネットワークに基づく異常検出は、近年ますます注目を集めています。既存の検出方法のほとんどは、異常なノードを検出するだけで、異常なサブグラフを検出することはできません。この記事では、異常なノードとサブグラフを同時に検出するための、属性ネットワークに基づく新しいハイブリッド次数異常検出問題を定義します。この目的を達成するために、属性ネットワーク内の異常なノードとモチーフ インスタンスを同時に検出できる、新しい深層学習モデルであるハイブリッド オーダー グラフ アテンション ネットワーク HO-GAT が提案されています。ノードとモチーフインスタンス間の相互影響をシミュレートするために、ノード表現とモチーフインスタンス表現の学習プロセスが、新しいハイブリッド順序セルフアテンションメカニズムを備えた統合グラフアテンションネットワークに統合されます。ノード表現とモチーフインスタンス表現を学習した後、2つのデコーダはそれぞれノードとモチーフインスタンスの属性情報とそれらの間の混合次数位相構造を再構築し、再構築エラーをノードとモチーフの異常として使用するように設計されています。モチーフインスタンスの一部。実際のデータセットに対する広範な実験により、HO-GAT の有効性が確認されています。

1 はじめに

ほとんどの手法は、単一ノード レベルでの異常検出のみに焦点を当てており、位相構造や属性の類似性から異常なノードを検出することしかできず、異常なサブグラフは検出できません。ただし、位相構造や属性の類似性の点で他のサブグラフから逸脱する異常なサブグラフを検出することが重要です。例: ソーシャル コマース プラットフォームでは、ユーザーのグループが虚偽の製品レビュー、評価、クリックを生成し、それによって対象製品の利益を増やしたり、何らかの悪意のある目的を達成したりする可能性があります。スパム ユーザー グループによって形成された異常なサブグラフを検出すると、ソーシャル コマース プラットフォームのサービス レベルを大幅に向上させることができます。異常なサブグラフの検出には、ノードとサブグラフの間、およびサブグラフ間の関係を学習することが含まれますが、これは異常なノードの検出よりも難しい問題です。現在、異常サブグラフの検出にはクエリベースの監視情報が必要であり、監視なしでは異常サブグラフを検出することは不可能であり、異常なノードとサブグラフを同時に検出することも不可能である。

本稿では、属性ネットワークに基づくハイブリッド次数異常検出問題を初めて提案し、その目的は、位相構造や属性類似性の点で他のノードやサブグラフから大きく逸脱した異常なノードやサブグラフを検出することである。従来定義されている構造異常なノードや部分グラフの検出には、属性異常ノードに加えて、新たに定義された構造異常部分グラフや属性異常部分グラフも同時に検出する必要がある。異種だが関連する情報がトポロジとノードの属性にエンコードされているため、ノードとサブグラフの異常スコアは、トポロジと属性の類似性の点で相互に影響を及ぼします。構造異常サブグラフと属性異常サブグラフを検出することで、属性ネットワーク ベースの異常検出が可能になります。さらに困難です。さらに、個々のノードとは異なり、どのタイプの異常なサブグラフを検出すべきかは不明です。

この目的のために、この記事では、属性ネットワーク内の構造/属性異常ノードと構造/属性異常サブグラフを同時に検出できる、新しいハイブリッド次数グラフ アテンション ネットワーク HO-GAT 深層学習モデルを提案します。対象となる部分グラフの種類は主に広く研究されている高次構造に焦点を当てており、モチーフは複雑なネットワークに出現する密な部分グラフとして定義され、その数は同じノードのランダムなネットワークにおける密な部分グラフよりも大幅に多くなります。密なサブグラフは複雑なネットワークの構成要素であるため、構成要素の異常なインスタンスを検出することは合理的です。つまり、HO-GAT は、構造/プロパティ上の異常なノードと異常な密なサブグラフ インスタンスを同時に検出することを目的としています。

ノードと密なサブグラフの間の相互影響を考慮するために、低次元のノード表現と密なサブグラフ インスタンス表現の学習プロセスが統合グラフ アテンション ネットワークに統合され、ハイブリッド次数セルフ アテンション メカニズムが以下を捕捉するように設計されています。 1) ノードからノードへ; 2) ノードから密なサブグラフ インスタンスへ; 3) 密なサブグラフ インスタンスからノードへ; 4) 密なサブグラフ インスタンスから密なサブグラフ インスタンスへ。ノード表現と密サブグラフ インスタンス表現を学習した後、2 つのデコーダは元のノードと密サブグラフ インスタンスの属性情報、およびノー​​ドと密サブグラフ インスタンス間の混合順序トポロジを再構築します。最後に、ノード トポロジ/属性情報と密サブグラフ インスタンス トポロジ/属性情報の再構成エラーは、それぞれノードと密サブグラフ インスタンスの異常スコアとして使用されます。

この記事の主な貢献は次のとおりです。

(1) 属性ネットワークに基づく新しいハイブリッド次数異常検出問題を初めて定義し、位相構造や属性の類似性において他のノードや密なサブグラフから大きく逸脱する異常なノードや異常なサブグラフを検出することを目的としている。

(2) 構造/属性異常ノードと構造/属性異常サブグラフを同時に検出できる新しいハイブリッド次数グラフ アテンション ネットワーク HO-GAT 深層学習モデルを提案します。

(3) この記事で提案したモデルの有効性を検証するために、いくつかの実際のデータセットに対して多数の実験が行われました。

2 評価された作品

3 表記法と問題の定式化

属性ネットワークに基づいて新しいハイブリッド次数異常検出問題を定義します。

定義 1 属性ネットワークに基づくハイブリッド次数異常検出は、位相構造や属性の類似性の点で他のノードやサブグラフから大きく逸脱する異常なノードやサブグラフを同時に検出することを目的としています。すなわち、従来から定義されている構造異常ノードや属性異常ノードの検出に加え、新たに定義された構造異常部分グラフや属性異常部分グラフも検出する必要がある。

定義 2-5 構造異常/属性異常のノード/サブグラフとは、位相構造または属性の類似性に基づいて、他のすべてのノードおよびすべての重要なサブグラフを含む残りのネットワークから大きく逸脱する異常なノードまたはサブグラフを指します。

上記の定義に基づいて、解決する必要がある 2 つの問題があります。まず、どのようなタイプの異常なサブグラフを検出する必要があるかが不明であり、現在、属性ネットワーク内の最も代表的なサブグラフを検出するための研究が不足しています ( [13][14] [26]); 2. ノードとサブグラフの異常スコアは、位相構造や属性の類似性において相互に影響を及ぼします。たとえば、一部の隣接ノードはサブグラフの異常スコアに影響を与えます ([16])。

4 提案されたモデル

4.1 モチーフおよびモチーフ拡張による属性付きネットワーク構築

4.1.1 モチーフ

定義 6 モチーフ: 出現回数が同じノード数を持つランダム ネットワークよりも大幅に多い複雑なネットワーク内の密なサブグラフ。それぞれ、ノード\small M=\left \{ \mathcal{V}_{M},\mathcal{E}_{M} \right \}セットとエッジのセットとして表されます  。Z スコアを使用してモチーフを確認します。つまり、最大の Z スコアを持つ密なサブグラフを見つけます。この記事では主に 3 つのノードと 3 つのエッジを含む三角形のサブグラフについて研究しますが、他のサブグラフに対しても優れたスケーラビリティを備えています。\small \mathcal{V} _{M}、\mathcal{E} _{M}\小p\小q\small p-1\leq q\leq \frac{p\left ( p-1 \right )}{2}

定義 7 モチーフ インスタンス: \small I=\left \{ \mathcal{V} _{I} ,\mathcal{E}_{I}\right \}; ノードの 3 つ組は\small v_{1}、v_{2}、v_{3}で表され\small \left \{ v_{1},v_{2},v_{3}\right \}、つまりこれら 3 つのノードを含むモチーフ インスタンスは で表され\small \left \{ v_{1},v_{2},v_{3}\right \}=\mathcal{V}_{I_{j}}、これを th\small jモチーフ インスタンスと呼びます。

定義 8 モチーフ インスタンス セット: \small \mathcal{M}=\left \{ I_{1},...,I_{\bar{n}} \right \}; ネットワーク内に出現したすべてのモチーフ インスタンスが含まれます。

4.1.2 モチーフ拡張による属性付きネットワーク構築

モチーフ拡張属性ネットワーク: オリジナルノードとモチーフインスタンスはモチーフ拡張ノードとして使用され、それらの間の相互接続構造は接続構造として使用され、それらの属性情報はモチーフ拡張ノード属性情報として使用されます。記号は で表され \small \widehat{\mathcal{G}}=\left \{ \widehat{\mathcal{V} } ,\widehat{\mathcal{A}},\widehat{\mathcal{F}}\right \} 、 は\small \widehat{\mathcal{V} } 、\widehat{\mathcal{A}}、\widehat{\mathcal{F}}それぞれモチーフ強調のノードセット、隣接行列、ノード属性ベクトルセットを表します。

モチーフ拡張ノード セットには、 初期ネットワーク内のノードとモチーフ インスタンスの仮想ノードが\small \widehat{\mathcal{V} } 含まれます。\小さいn\small \overline{n}

モチーフ拡張隣接行列 \small \widehat{\mathcal{A}} \ \epsilon \ \mathbb{R}^{\left ( n+\overline{n} \right )\time {\left( n+\overline{n} \right )} } :\small \forall i=1,2,...,n,j=1,2,...,\overline{n},

\small \widehat{A}_{i,n+j}=\widehat{A}_{n+j,i}=\left\{\begin{行列} 1 & if \ v_{i} \ \epsilon \ \mathcal{V}_{I_{j}}\\ \\0& それ以外の場合は \end{行列}\right。

つまり、 \小さい私 番目のノードに 番目の \small j モチーフ インスタンスが含まれている場合、 番目の \小さい私 ノードと 番目の \small j モチーフ インスタンスは接続されているとみなされます。

\small \widehat{A}_{n+i,n+j}=\widehat{A}_{n+j,n+i,}=\left\{\begin{行列} 1 & if \ \mathcal {V}_{I_{i}}\cap\mathcal{V}_{I_{j}} \neq \varnothing \\ \\0& それ以外の場合は \end{matrix}\right。

つまり、 番目 \小さい私 と 番目の \small j モチーフ インスタンスが少なくとも 1 つの共通ノードを共有する場合、それらの対応する仮想ノードは接続されていると見なされます。

モチーフ拡張ノード属性ベクトル セットは、 \small \widehat{\mathcal{F}}=\left \{ f_{1}, f_{2},..., f_{n}, \overline{f_{1}},\overline{f_{2 }} , ...,\overline{f_{\overline{n}}} \right \} \small n+\overline{n} モチーフ拡張ノードの属性ベクトルを表します 。前者の\小さいn属性ベクトルは元のネットワークの属性ベクトルを表し、後者は\small \overline{n}モチーフインスタンスの属性ベクトルを表します。たとえば、 番目のモチーフ インスタンス\small j_{1}、j_{2}、j_{3}を表す3 つのインデックスを使用すると、 次の結果が得られます。\small j\small \left \{ v_{j1}, v_{j2}, v_{j3} \right \}=\mathcal{V}_{I_{j}},\forall j

\small \overline{f_{j}}=\frac{1}{3}\left ( f_{j1}+f_{j2}+f_{j3} \right ) \ \epsilon \ \mathbb{R}^{ d\×1}

4.2 ハイブリッド次数属性ネットワーク エンコーダ

HO-GAT は主に、1) ノードからノード、2) ノードからモチーフ インスタンス、3) モチーフ インスタンスからノード、4) モチーフ インスタンスからモチーフ インスタンスの 4 つの側面に焦点を当てています。グラフ アテンション レイヤーは、ノードとモチーフ インスタンスの元の属性ベクトルを低次元表現ベクトルに変換するために使用され、ノード間、ノードとモチーフ インスタンス間、およびモチーフ インスタンス間の複雑な関係をエンコードします。

グラフ アテンション レイヤーの入力は、モチーフによって強化されたノード特徴ベクトルのセットです。つまり、次のとおりです\small \left \{ x_{1},x_{2},...,x_{n},x_{n+1},...,x_{n+\overline{n}} \right \}

1) 前の\小さいnノードの特徴ベクトルは元のノードの特徴ベクトル\small \left \{ x_{1},x_{2},...,x_{n} \right \}を表し\小さいn、最初のグラフ アテンション レイヤーの元の属性ベクトルに初期化されます。\small x_{i}=f_{i}、\forall_{i}=1,2,...,n

2)後者の\small \overline{n}ノード特徴ベクトルは、モチーフインスタンスの特徴ベクトル\left \{ x_{n+1},...,x_{n+\overline{n}} \right \}を表し、モチーフインスタンスに初期化される。\overline{n}\overline{n}

の属性ベクトルx_{n+j}=\overline{f_{j}}、\forall_{j}=1,2,...,\overline{n}

グラフ アテンション レイヤーの出力は、\left \{ y_{1},y_{2},...,y_{n},y_{n+1},...,y_{n+\overline{n}} \right \}モチーフ強化されたノード特徴ベクトル、 、のセットですy_{i} \ \epsilon \ \mathbb{R}^{d{}'\times 1}\forall i=1,...,n+\overline{n}

グラフ アテンション レイヤーの主なプロセスは次のとおりです。まず、重み行列W^{xy} \ \epsilon \ R^{ \ {d}'\times d}によってパラメータ化された線形変換器 を使用して、各モチーフ強調ノード、つまり を実行しますW^{xy}x_{i},\forall i=1,2,...,n+\overline{n} 。次に、モチーフ強調ノードでサブ注意メカニズムを実行して、注意係数を計算します。

e_{ij}=a\left ( W^{xy} x_{i}, W^{xy} x_{j} \right )

アテンション係数は 、 ノードに対する e_{ij} ノードの重要性を表します  。アテンション メカニズムは、  重みベクトルによってパラメータ化された単層フィードフォワード ニューラル ネットワークであり、傾き 0.2 の非線形 LeakyReLU 関数を負の入力に適用します。(|| は、繋がり)j私ある\alpha \ \epsilon \ \mathbb{R}^{ {2d}'\times 1}

e_{ij}=LeakyReLU\left ( a^{T} \left [ W^{xy} x_{i}|| W^{xy} x_{j} \right ] \right )

モチーフ強化属性ネットワークの位相構造を注意係数に導入し、異なるモチーフ強化ノード間の比較を容易にするために、隣接ノードに基づくソフトマックス関数を使用して注意係数を正規化します。

\alpha_{ij}=softmax_{j}\left ( e_{ij} \right )=\frac{exp\left ( e_{ij} \right )}{\sum_{\kappa \epsilon \mathcal{N}_ {i}}^{}exp\left ( e_{i \kappa } \right )}

ここで、  はモチーフ強調ノードの隣接モチーフ強調ノード\mathcal{N}_{i} を表し 、それ自体を含みます。つまり、次のようになります。私

\mathcal{N}_{i}=\left \{ \kappa |\forall \kappa =1,...,n+\overline{n},\widehat{A}_{ik}=1 \right \}

 正規化された注意係数は、a_{ij}各モチーフ強調ノードによって出力される特徴ベクトルを計算するためにさらに使用されます。

y_{i}=\sum_{j\epsilon \mathcal{N}_{i} }^{}a_{ij}W_{xy}x_{j}

W^{xy} \ \epsilon \ R^{ \ {d}'\times d}重み行列と重みベクトルは、\alpha \ \epsilon \ \mathbb{R}^{ {2d}'\times 1}特定のグラフ アテンション レイヤー上のすべてのモチーフ強調ノードとモチーフ強調ノードのペアによって共有されることに注意してください。

この記事では、2 つのグラフ アテンション レイヤーを使用して、トポロジー構造または属性の類似性に関するノードとモチーフ インスタンス間の複雑な相互作用をキャプチャします。最初のレイヤーの次元数は、2 番目のレイヤーの次元数、つまり基礎となる表現の次元数の 2 倍に設定されます。エンコード後、 n+\オーバーライン{n} モチーフ強調ノードの潜在的な表現のセットを取得できます。これは、 でシンボル化され \left \{ h_{1},h_{2},...,h_{n},h_{n+1},...,h_{n+\overline{n}} \right \} 、サイズは 私 、つまり ですh_{i} \ \epsilon \ \mathbb{R}^{l\times 1},\forall i=1,2,...,n+\overline{n} 。

4.3 ハイブリッド次数属性ネットワーク デコーダ

ポテンシャル表現を取得した後、モチーフ強化属性ネットワークが再構築され、  \widehat{\mathcal{G}}^{Rec}=\left \{ \widehat{\mathcal{V}},\widehat{\mathcal{A}}^{Rec},\widehat{\mathcal{F} }^{Rec}\right \} ;\widehat{\mathcal{A}}^{Rec} \ \epsilon \ \mathbb{R}^{\left (n+\overline{n} \right )\times\left (n+\overline{n} \right ) } は再構築されたモチーフ強化ノード隣接行列を表し、 項目は\left ( i,j \right )モチーフ強化ノード私とノードj間の接続強度を表します ; は\widehat{\mathcal{F} }^{Rec}=\left \{ f_{1}^{Rec},..., f_{n}^{Rec},\overline{ f}_{1}^ {Rec},...,\overline{ f}_{n}^{Rec} \right \} 構築された属性ベクトル ;f_{i}^{Rec},\forall i=1,...,n は私番目の元のノードの再構成された属性ベクトル;番目のモチーフ インスタンスの再構成された属性ベクトル\overline{f}_{j}^{Rec},\forall j=1,...,\overline{n} を表します。j再構成エラーは、ノードとモチーフ インスタンスの異常スコアを計算するために使用されます。

4.3.1 位相構造の再構成

2 つのノードの潜在的な表現間の内積が計算され、sigmod 活性化関数が適用されてトポロジが再構築されます。

\widehat{A}_{i,j}^{Rec}=sigmod\left ( h_{i}^{T}h_{j} \right )

つまり、j番目のモチーフ強化インスタンスの再構成された隣接行列は です \widehat{A}_{n+j}^{Rec}, \ \forall j=1,2,...,\overline{n} 。

4.3.2 属性情報の再構築

完全に接続されたレイヤーを使用して、 \小さいn元のノードと\small \overline{n}モチーフ インスタンスの属性ベクトルを再構築します。元のノードを再構築します私

f_{i}^{Rec}=\sigma \left (W^{Rec}h_{i}+b^{Rec} \right )

W^{Rec} \ \epsilon \ \mathbb{R}^{d\times 1}, \ b^{Rec} \ \epsilon \ \mathbb{R}^{d\times 1} ここで、 はそれぞれ学習可能な重み行列とバイアスです。 thjモチーフ インスタンスをリファクタリングします。

\overline {f}_{j}^{Rec}=\sigma \left (W^{Rec}h_{n+j}+b^{Rec} \right )

4.4 損失関数と異常検出

4.4.1 損失関数

HO-GAT モデルの損失関数には、構造再構成損失と属性再構成損失の 2 つの部分が含まれます。

構造再構成損失の場合、目標は尤度関数を最大化することです。

\prod_{i,j}^{n+\overline{n}}\left ( \widehat{A}_{i,j}^{Rec} \right )^{\widehat{A}_{i,j} }\left ( 1- \widehat{A}_{i,j}^{Rec}\right )^{\left ( 1-\widehat{A}_{i,j} \right )}

つまり、負の対数尤度誤差を最小限に抑えます。

L_{s}=-\sum_{i,j}^{n+\overline{n}}\left [ \widehat{A}_{i,j}log\left ( \widehat{A}_{i,j }^{Rec} \right )+\left ( 1-\widehat{A}_{i,j} \right )log\left ( 1-\widehat{A}_{i,j}^{Rec} \そうそう ]

属性再構築誤差の場合、元の属性ベクトルと再構築された属性ベクトルの差の合計を計算します。

L_{a}=\sum_{i=1}^{n}||f_{i}-f_{i}^{Rec}||^{2}+\sum_{j=1}^{\overline{ n}}||\overline{f}_{j}-\overline{f}_{j}^{Rec}||^{2}

したがって、合計損失関数の方程式は次のようになります。 ここで、 はL_{reg}\left ( \Phi \right ) 過学習を回避するための正則化項、\ファイは HO-GAT モデルのすべてのパラメーター、\ラムダは 0.0015 に設定されたハイパーパラメーターです。

L=L_{s}+L_{a}+\lambda L_{reg}\left ( \Phi \right )

4.4.2 異常検出

異常は再構成誤差に従って分類されます。つまり、再構成誤差が大きいほど、オブジェクトが異常である可能性が高くなります。4 つの異常タイプに対応する異常スコアは次のように定義されます。

1) 構造異常ノード:私元のノード \small v_{i} の構造異常スコア

\small SAScore^{node}\left ( v_{i} \right )=||\widehat{A}_{i,:}-\widehat{A}_{i,:}^{Rec}||^ {2}

2) 属性異常ノード:私元のノード \small v_{i} の属性異常スコア

 \small AAScore^{node}\left ( v_{i} \right )=||f_{i}-f_{i}^{Rec}||^{2}

3) 構造異常モチーフインスタンス:j番目のモチーフインスタンス \small I_{j} の構造異常スコア

\small SAScore^{motif}\left ( I_{j} \right )=||\widehat{A}_{n+j,:}-\widehat{A}_{n+j,:}^{Rec }||^{2}

4) 属性異常モチーフインスタンス:j番目のモチーフインスタンス \small I_{j} の属性異常スコア

 \small AAScore^{motif}\left ( I_{j} \right )=||\overline{f}_{j}-\overline{f}_{j}^{Rec}||^{2}

5 実験

5.1 実験設定

5.1.1 データセットと異常の生成

6 データセット: Scholar Network ソーシャル ネットワーク データ セット Scholat、科学技術情報プラットフォーム共著者ネットワーク AMiner、4 ハイパーリンク Web ページ データ セット WebKB

1) Scholat: 学者はノードであり、2 人の学者間のメッセージ対話はエッジであり、再起動を伴う幅優先検索が次数 50 以下のノードを保持するために使用されます。PCA メソッドは、関連する学者の個人プロフィール上の学者ノードの属性ベクトルを表すために使用されます。前処理とサブセット選択の後、2022 個のノード、2500 個のエッジ、および 329 個の三角形テンプレート インスタンスが含まれます。ノード属性ベクトルの次元は 500、モチーフ強化数は 8361 です。

2) Aminer: ノードは著者を表し、エッジはノード間の共著関係を表し、50 度以下のノードを保持するために再起動を伴う幅優先検索が使用されます。ノード属性ベクトルは、著者の出版キーワードの BOW 表現です。前処理とサブセット選択の後、これには 2079 個のノード、3812 個のエッジ、および 2611 個の三角形モデル インスタンスが含まれます。ノード属性ベクトルの次元は 133 で、モチーフ強化の数は 55486 です。

3) WebKB: コーネル、テキサス、ワシントン、およびウィスコンシンの 4 つのデータ セットには、それぞれ 195、187、203、および 265 の Web ページが含まれています。各 Web ページはノードであり、2 つの Web ページ間のハイパーリンクはノードのエッジとみなされます。属性ベクトルは値 0/1 の単語ベクトルであり、サイズ 1703 の辞書内の各単語が次のとおりであることを示します。存在しません/Web ページに存在します。つまり、ノード属性ディメンションは 1703 です。コーネルには 195 のノード、283 のエッジ、59 のモチーフ インスタンス、819 のモチーフ強化エッジがあり、テキサスには 187 のノード、280 のエッジ、67 のモチーフ インスタンス、1866 のモチーフ強化エッジがあり、ワシントンには 230 のノード、366 のエッジ、99 のモチーフ インスタンスがあり、 3065 個のモチーフ強化エッジ。ウィスコンシン州には 265 個のノード、459 個のエッジ、120 個のモチーフ インスタンス、および 3039 個のモチーフ強化エッジがあります。

構造異常ノード(構造異常モチーフインスタンス)を収集・生成することにより、そのトポロジーは他のノードや三角形モチーフインスタンスから大きく逸脱する。\small \rho _{1}、\rho _{2}は、それぞれ構造的に異常なノードと構造的に異常なモチーフインスタンスの割合を表しますまず、属性異常モチーフインスタンスを生成しますが、実験の目的を考慮し、属性異常モチーフインスタンスの割合と構造異常モチーフインスタンスの割合を同じとし、同様に\small \rho _{2}属性異常ノードの割合を とします\small \rho _{1}各候補属性の異常モチーフ インスタンスについて\small I_{j}、データ セットから 50 個のモチーフ インスタンスがランダムに選択され、\small I_{j}平均属性ベクトルからの偏差が最も大きいモチーフ インスタンスがユークリッド距離に基づいて選択され、候補属性に含まれる 3 つのノード属性ベクトルが選択されます。\small I_{i}異常なモチーフ インスタンスは、\small I_{j}モチーフ インスタンスの 3 つのノード属性ベクトルに置き換えられ\small I_{i}、属性異常モチーフ インスタンスが生成されます\small I_{j}属性異常モチーフインスタンスを生成する過程で、いくつかの属性異常ノードも生成されますが、一貫した割合を維持するには、より多くの邪悪な属性異常ノードを生成する必要があります。各属性異常ノード候補について\small v_{j}、データセットから 50 個のノードがランダムに選択され、ユークリッド距離に基づいて\small v_{j}属性ベクトルからの偏差が最も大きいものが選択され、\small v_{i}属性異常ノード候補\small v_{j}の属性ベクトルが\small v_{i}属性ベクトル。

5.1.2 ベースラインと設定

 1) AMEN: 統合モジュール化と重み付け属性類似性を使用して属性ネットワーク上の異常領域を検出すると、異常なサブグラフのみが検出できますが、異常なノードは見つかりません。したがって、異常なサブグラフに含まれるノードは異常なノードとみなされます。ノードの異常スコアはサブグラフの異常スコアと同じです

2) ANOMALOUS: CUR 分解と残差分析に基づく属性選択と異常検出のための共同モデリング手法。

3) ドミナント: グラフ畳み込みネットワークに基づくフレームワーク。属性ネットワーク エンコーダーと、構造/属性を再構成する 2 つのデコーダーが含まれます。

4) レーダー:属性情報の残差やネットワーク情報との相関を考慮した属性ネットワーク残差解析に基づく異常検知。

方法 2、3、4 では異常な部分グラフを見つけることができないため、どの三角形モチーフ インスタンスでも、含まれる 3 つのノードが異常として検出された場合、その三角形モチーフ インスタンスは異常であるとみなされ、このモチーフ インスタンスの異常スコアは、 3 つのノードの異常スコアHO-GAT の潜在的な表現次元は 64 に設定されます。

5.1.3 評価尺度:Precision@k、Recall@k

5.2 比較結果

5.2.1 Scholat での比較結果

異常な比率の 2 つのグループを使用して実験が行われました\small \left \{ \rho_{1}=1%、\rho_{2}=3% \right \}、\left \{ \rho_{1}=1%、\rho_{2}=5% \右 \}異常ノードの検出に関しては、HO-GAT は他の 4 つの方法と比べて大きな改善はありませんが、モチーフ インスタンスの異常検出では平均 100% 以上の改善を達成しています。

5.2.2 AMiner での比較結果

異常な比率の 2 つのグループを使用して実験が行われました\small \left \{ \rho_{1}=4%、\rho_{2}=1.5% \right \},\left \{ \rho_{1}=4%、\rho_{2}=2.5% \右 \}HO-GAT は、他の 4 つの方法と比較して、異常ノードの検出においてわずかな改善しか達成しません。ただし、SAM タスクのパフォーマンスの向上は顕著ではなく、さらに悪いことに、属性異常モチーフ インスタンス検出タスク (AAM) では検出できず、適合率と再現率はいずれも 0 です。これは、異常属性のモチーフインスタンスを生成する方法では、モチーフインスタンスの異常属性ベクトルを生成できないためであり、あるモチーフインスタンス内の3つのノードの属性ベクトルを別のモチーフインスタンスの属性ベクトルに置き換えると、その平均的な属性ベクトルが生成される。変化は大きくない、つまり明らかな偏差がないため、ほとんどの方法では検出されません。

さらにランダム ノイズ属性ベクトルをテスト セットに追加して属性異常モチーフ インスタンスを生成すると、属性異常モチーフ インスタンス検出のすべての方法が向上し、ほとんどの場合、HO-GAT が他の 4 つの方法よりも優れていることがわかります。 。

5.2.3 4 つの WebKB データセットの比較結果

実験は異常率を使用して行われました\small \left \{ \rho_{1}=5%、\rho_{2}=5% \right \}Scholat および AMiner データセットと同様に、構造/属性異常ノードの検出における HO-GAT の改善は顕著ではありませんが、構造/属性異常モチーフ インスタンスの検出では大幅な改善を達成しています。

5.3 パラメータ分析

5.3.1 潜在次元 \小l

Scholat と AMiner の異常率をそれぞれ\small \left \{ \rho_{1}=1%、\rho_{2}=5% \right \}と とします\small \left \{ \rho_{1}=4%、\rho_{2}=2.5% \right \}4 つの WebKB データセットの異常率を に設定します\small \left \{ \rho_{1}=5%、\rho_{2}=5% \right \}ほとんどの場合、HO-GAT のパフォーマンスは \小l ディメンションの値には影響されませんが、場合によっては、 \小l ディメンションが異なるとパフォーマンスが変化することがあります。表からの最もパフォーマンスの高い結果は、ほとんどが潜在的な次元 64 に設定されているため、実験が採用されました \small l=64 。

5.3.2 正則化パラメータ \small \ラムダ

 正則化パラメータの影響は、 と比較して、の異常率を\small \left \{ \rho_{1}=1%、\rho_{2}=5% \right \}持つ Scholat データセットで検証されます HO-GAT のパフォーマンスはほとんどの場合非常に安定しており、属性異常ノードの検出にはわずかな変化しかありません。正則化の影響を考慮するために、  試した中央値である 0.0015 に設定されます。これは広く採用されているデフォルト値でもあります。\small \ラムダ\small \lambda=0.00015、\lambda=0.0015、\lambda =0.015\small \ラムダ

5.4 ケーススタディ

ケース スタディは、異常率 の Scholat データ セットに対して実行されます\small \left \{ \rho_{1}=1%、\rho_{2}=5% \right \}。スペースの制限により、構造異常モチーフ インスタンスの検出と属性異常モチーフ インスタンスの検出のみが検討されます。

図 4(a) はトポロジカル ネットワーク図であり、モチーフ インスタンス 2311 はノード 862、1059、および 1299 で構成されます。異常生成プロセス中に、パターンインスタンス2311と他のノードとの間のエッジが除去されて、孤立したパターンインスタンスが取得される。モチーフ2311は、全モチーフインスタンスの中で構造異常スコアが最も大きいため、構造異常モチーフインスタンスとして正しく識別することができる。

図 4(b) は、属性異常を導入した後の属性ネットワーク図です。モチーフ インスタンス 2317 は、ノード 1054、1055、および 1463 で構成されます。ノードの属性は、カラー ブロックで表されます。ノードの属性および関連する属性を確認できます。 1054、1055、および 1463。隣接するノードは大きく異なります。モジュール強化ステップの後、モジュールインスタンス2317は、依然として他のノードモチーフインスタンスとは異なる属性を有する。パターンインスタンス2317は、全パターンインスタンスの中で属性異常スコアが最も高いため、属性異常パターンインスタンスとして正しく識別できる。

6 結論

この論文は、構造/属性の異常なノードと異常なモチーフ インスタンスを同時に検出する、属性ネットワークに基づくハイブリッド次数異常検出問題を定義します。この目的のために、新しい深層学習モデル、ハイブリッド順序グラフ アテンション ネットワーク HO-GAT が設計されました。まず、混合順序構造と属性をモデル化するためにモチーフ強化属性ネットワークが構築され、その後、モチーフ強化属性ネットワークが混合順序属性ネットワーク エンコーダに入力されて、モチーフ強化ノードの潜在的な表現が生成されます。新しいハイブリッド順序セルフアテンション メカニズムも、位相構造/属性の類似性に関するノードとモチーフ インスタンス間の複雑な相互作用をシミュレートするように設計されています。モチーフ強化ノードの潜在表現を取得した後、混合順序属性ネットワーク デコーダは、ノードとモチーフ インスタンスの属性情報、およびそれらの間の混合順序トポロジを再構築するように設計されています。最後に、再構成エラーは、それぞれノードとモチーフ インスタンスの異常スコアとして使用されます。実際のデータセットに対する広範な実験により、HO-GAT の有効性が確認されています。

おすすめ

転載: blog.csdn.net/weixin_43563178/article/details/121721887