【GNN+異常検出】帰属ネットワーク上の詳細な異常検出

論文の紹介

原題: Deep Anomaly Detection on Attributed Networks
中国語タイトル: Deep Anomaly Detection based on Attributed Networks
出版会議: SIAM International Conference on Data Mining
出版年: 2019-05-06
著者: Kaize Ding Jundong Li Rohit Bhanushali Huan Liu
ラテックス引用:

@inproceedings{ding2019deep,
  title={Deep anomaly detection on attributed networks},
  author={Ding, Kaize and Li, Jundong and Bhanushali, Rohit and Liu, Huan},
  booktitle={Proceedings of the 2019 SIAM International Conference on Data Mining},
  pages={594--602},
  year={2019},
  organization={SIAM}
}

まとめ

属性付きネットワークはユビキタスであり、現代の情報インフラストラクチャの重要な部分であり、追加のノード属性が知識発見における元のネットワーク構造を補完します。近年、属性ネットワーク上の異常なノードの検出が研究の注目を集めており、ネットワーク セキュリティ、金融、ヘルスケアなど、影響の大きいさまざまな分野で広く使用されています。しかし、既存の試みのほとんどは、エゴネットワークやコミュニティ分析、あるいは部分空間の選択を通じて、浅い学習メカニズムの問題に取り組んでいます。これらのモデルが属性ネットワークの計算上の課題を完全に解決できないことは疑いの余地がありません。たとえば、ネットワークの希薄性やデータの非線形性の問題に悩まされることが多く、異なる情報パターン間の複雑な相互作用を捉えることができないため、異常検出のパフォーマンスに影響を及ぼします。上記の問題を解決するために、本論文は新しい深層モデルを開発することによって属性ネットワークの異常検出問題を研究する。特に、私たちが提案するディープモデルは次のとおりです。

(1) 一般的なグラフ畳み込みネットワーク (GCN) を使用したノード埋め込み学習用に、トポロジとノード プロパティを明示的にモデル化します。

(2) は、ディープ オートエンコーダーを通じて学習された埋め込みを活用して元のデータを再構築することで、異常検出問題を解決するようにカスタマイズされています。

GCN とオートエンコーダーの相乗効果により、構造と属性の両方の観点からノードの再構成エラーを測定し、異常を発見することができます。現実世界の属性ネットワーク データセットに関する広範な実験により、私たちが提案したアルゴリズムの有効性が実証されました。

属性ネットワークの概要

属性ネットワークには、さまざまなモーダル情報を統合する強力なモデリング機能があるため、属性ネットワーク内の他のほとんどのノードからモードが大きく逸脱する異常なノードの検出が研究のホットスポットとなっています。一般に、属性ネットワーク内のノードの異常は、ノード間の相互作用 (トポロジー) に依存するだけでなく、ノードの内容の不調和 (ノード属性) によっても測定できます。

問題点

  1. ネットワークの疎性 - 現実世界の属性ネットワークでは、ネットワーク構造が非常に疎になる可能性があるため、観察されたノードの相互作用に大きく依存するため、エゴ ネットワークやコミュニティの分析を実行するのは困難です。

  2. データの非線形性 - ノードとノード属性間の相互作用は高度に非線形であり、部分空間選択に基づく既存の異常検出器は主に線形メカニズムを使用して属性ネットワークをモデル化します。

  3. 複雑なモーダル相互作用 - 2 つの情報ソースの組み合わせが混乱しているため、属性ネットワークは処理が非常に難しく、異常検出のために複雑な相互作用をキャプチャするには統一された特徴空間が必要です。

論文寄稿

  1. 原則に基づいたグラフ畳み込みオートエンコーダである Dominant は、属性ネットワークをシームレスにモデル化し、共同フレームワークで異常検出を実行するように開発されています。特に、このモデルはノードの再構成エラーを構造と属性の両方の観点から分析して異常を発見できます。
  2. 私たちが提案したモデルは、さまざまなドメインのさまざまな属性ネットワークで評価されます。実験結果は、この論文で提案したフレームワークが良好なパフォーマンスを示すことを示しています。

上記の問題を解決するためのこの論文のアプローチは次のとおりです。

  • ネットワークの疎性、複雑なモーダル相互作用: GCN を使用。トポロジとノード属性を入力として受け取り、線形ユニットと非線形活性化関数の複数の層を積み重ねることによって、識別的なノードの埋め込みが学習されます。
  • データの非線形性: GCN は、構造と属性の両方の観点からノードの再構成エラーを分析して、異常を見つけることができます。
  • 異常検出: まず、グラフ畳み込みネットワークをエンコーダ関数として使用して、入力属性ネットワークを簡潔な低次元の埋め込み表現に圧縮し、次に、対応するデコーダ関数を使用してトポロジ構造とノード属性を再構築します。エンコーダおよびデコーダ段階後のノードの再構成エラーは、属性ネットワーク上の異常なノードを検出するために使用されます。

1. 提案モデル - 支配的

属性ネットワーク上の異常検出タスクをランキング問題として定式化します。

属性ネットワーク異常ソート: 属性ネットワーク G が与えられると、隣接行列は A で表され、属性情報行列は位置で表されます。

Dominant の基本的な構成要素はディープ オートエンコーダー [11] であり、3 つの基本コンポーネントで構成されます。

  1. 属性ネットワーク エンコーダー– GCN のノード埋め込み表現学習との共同フレームワークでネットワーク構造とノード属性をシームレスにモデル化します。
  2. 構造再構築デコーダ- 学習したノードの埋め込みを使用して元のネットワーク トポロジを再構築することを目的としています。
  3. 属性再構築デコーダ- 取得されたノードの埋め込みを使用して、観察されたノード属性の再構築を試みます。次に、ノードの再構成エラーを利用して、属性ネットワーク上の異常をマークします。

ここに画像の説明を挿入します

ディープオートエンコーダー:

[32、37、17] に示されているように、元のデータと推定データの差 (つまり、再構成誤差) は、データセット内のインスタンスの異常を示す強力な指標です。具体的には、再構成エラーが大きいデータ インスタンスは、そのパターンがデータの大部分から大幅に逸脱しており、観測データから正確に再構成できないため、異常とみなされる可能性が高くなります。さまざまな再構築ベースの異常検出手法の中でも、ディープ オートエンコーダーは最先端のパフォーマンスを実現します。

入力データセットが与えられた場合 学習プロセスは、次のようにコスト関数を最小化するものとして説明できます。

min { E [ dist ( X , D ec ( E nc ( X ) ) ) ] } min\{ E[dist(X,Dec(Enc(X)))] \}min { E [ dis t ( X , _ _Dec ( E n c ( X )))]}

  1. 属性ネットワークエンコーダ

    GCN、次の形状を持つ新しいノード埋め込み行列 Z を取得します。(node_size, embedding_size)

  2. 構造再構成デコーダ

    再構成中に、元のグラフのノード i とノード j の間にリンクがあるかどうかを判断する方法:
    p ( A ^ i , j = 1 ∣ zi , zj ) = sigmoid ( zi , zj T ) p(\hat{ A} _{i,j}=1|z_i,z_j) = シグモイド(z_i,z_j^T)p (^ j=1∣z _私はzj=s i g mo i d ( z _私はzjT)
    原理: 空間内の 2 つのベクトルの類似性を判断するには、つまり、2 つのベクトルに対して内積演算を実行するだけです。同じ方向であれば値が最も大きくなります。次に、シグモイド関数を使用して [0,1] の間の次元を制御します。この方法で得られた値は、確率として直接使用することもできます。
    行列に適用すると、次のようになります。
    A ^ = シグモイド (ZZT) \hat A = sigmoid(ZZ^T)^=シグモイド( Z Z _ _ _ _ _ _

    ネットワーク上の構造的異常は、構造再構成誤差によって決定されます。
    RS = A − A ^ R_S = A−\hat ARS=^

  3. 属性再構成デコーダ

    属性再構築デコーダは、別のグラフ畳み込み層を利用して元のノード属性を予測し、最終的にX ^ \hat Xを埋め込んだ再構築されたノードを出力します。バツ^そして、計算された再構成誤差を通じて、属性の観点から属性ネットワーク上の異常を見つけることができます:
    RA = X − X ^ R_A = X−\hat XR=バツバツ^

  • 異常検出

    再構成誤差を共同で学習するために、提案する深度マップ畳み込みオートエンコーダの目的関数は次のように表すことができます。
    L = ( 1 − α ) RS + α RA = ( 1 − α ) ∣ ∣ A − A ^ ∣ ∣ F ′ 2 + α ∣ ∣ X − X ^ ∣ ∣ F ′ 2 L = (1-\alpha) R_S + \alpha R_A = (1-\alpha)||A-\hat A||^2_{F'} + \alpha ||X-\hat X||^2_{F'}L=( 1a ) RS+αR _=( 1a ) ∣∣ A^F2+α ∣∣ Xバツ^F2
    このように、各ノードの異常スコアは次のように表すことができます
    。 (1-\alpha)||a-\hat{a_i}||_2 + \alpha||x_i-\hat{x_i}||_2スコア( v私は=( 1a ) ∣∣ aある私は^2+α ∣∣ x私はバツ私は^2

    具体的には、スコアが高いインスタンスは異常であるとみなされる可能性が高いため、対応する異常スコアに基づいて異常ランクを計算できます。

2. 実験

  • データセット:

    • BlogCatalog: BlogCatalog はブログ共有 Web サイトです。blogcatalog のブロガーは相互にフォローし、ソーシャル ネットワークを形成できます。ユーザーは、自分自身とそのブログを説明する一連のタグに関連付けられており、ノード属性として扱われます。
    • Flickr: Flickr は、画像のホスティングおよび共有 Web サイトです。BlogCatalog と同様に、ユーザーは相互にフォローし、ソーシャル ネットワークを形成できます。ユーザーのノード属性は、ユーザーの興味を反映する割り当てられたラベルによって定義されます。
    • ACM: ACM は、学術界のもう 1 つの提携ネットワークです。これは引用ネットワークであり、各論文をネットワーク上のノードとみなし、リンクは異なる論文間の引用関係を表します。各論文のプロパティは論文要約から生成されます。
  • ベースラインモデル:

    • LOF [4] はコンテキスト レベルで異常を検出し、ノード属性のみを考慮します。
    • SCAN [34] は、構造レベルで異常を検出できる構造ベースの検出方法です。
    • AMEN [24] は、異常な近傍を検出するために属性情報とネットワーク構造情報の両方を使用します。具体的には、各ノードの異常状況をエゴネットワークの観点から分析する。
    • Radar [17] は、属性ネットワーク用の最先端の教師なし異常検出フレームワークです。属性情報の残存やネットワーク情報との整合性を記述することで異常動作を検知します。
    • ANOMALOUS [23] は、CUR 分解と残差分析に基づいて結合異常検出と属性選択を実行し、属性ネットワーク上の異常を検出します。
  • パラメータ:

    • 最適化アルゴリズム: アダム
    • エポック:300
    • 学習率:0.005
    • 3層畳み込み層embedding_size: 64、32、16

ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/Dajian1040556534/article/details/132558961