1. 本記事の主な研究内容

多変量時系列におけるグラフニューラルネットワークに基づく異常検出: グラフニューラルネットワークに基づく多変量時系列の異常検出

目標: センサー間の関係のグラフを明示的にキャプチャする、多変量時系列データの特定の方法を開発すること。

既存のアプローチの弱点: 既存のアプローチは、変数間の既存の関係の構造を明示的に学習したり、時系列の予想される動作を予測するためにそれらを使用したりしません。

この不具合の改善: 多変量時系列におけるセンサー間の複雑な関係を最大限に活用するために、グラフニューラルネットワーク (GNN) を使用してセンサー間の関係グラフを学習します。

グラフベースの方法は、相互依存性をエッジで表すことによってセンサー間の関係をモデル化する方法を提供します。

一般に、GNN は、ノードの状態がその隣接ノードの状態の影響を受けると想定しています。

グラフ畳み込みネットワーク (GCN) は、1 ステップ近傍の表現を集約することによってノードの特徴表現をモデル化します。

グラフアテンションネットワーク (GAT) は、アテンション関数を使用して、集計中にさまざまな近傍のさまざまな重みを計算します。

提案手法：グラフ偏差ネットワーク (GDN)、この方法はセンサー間の関係のグラフを学習し、これらのパターンからバイアスを検出します。このメソッドは 4 つの主要な部分で構成されます。

センサーの埋め込み、センサーの埋め込み: 埋め込みベクトルを使用して、各センサーの固有の特性を柔軟にキャプチャします。
グラフ構造学習、グラフ構造学習: グラフ構造学習はセンサーペア間の関係を学習し、それらをグラフ内のエッジとしてエンコードします。
グラフアテンションベースの予測、グラフアテンションに基づく予測: グラフ内の隣接するセンサーのアテンション関数に基づいてセンサーの将来の動作を予測します。
グラフ偏差スコアリング、グラフ偏差スコアリング: グラフから学習したセンサー関係の偏差を特定して説明し、これらの偏差を位置特定して説明します。

2. グラフ偏差ネットワーク (GDN)

1. 問題提起

学習データ：Tに $N 個$ $T_{train}$ この期間のデータ: $s_{train} = [s^{(1)}_{train} , s^{(2)}_{train} , ... , s^{(T_{train})}_{train}]$ 、その中、 $s^{(t)}_{train}$ です $N$ 次元ベクトル、 $t$ 時間 $N個$ のセンサーの値。
通常の教師なし異常検出の定式化に従って、トレーニングデータには通常のデータのみが含まれていると想定されます。

私たちの目標は、次のように表されるテストデータの異常を検出できるようにすることです: $s_{train} = [s^{(1)}_{test} , s^{(2)}_{test} , ... , s^{(T_{test})}_{test}]$

アルゴリズムの出力は、サイズ $T_{test}$ のセットです。 $T_{テスト_}$ のバイナリラベル、このラベルのセットは、各時点で $t$ 例外が発生したかどうか。 $a(t)\in\{0,1\}$ ，其中 $(t)_= 1 は$ を意味します $時刻t$ で例外が発生しました

2. 概要

このメソッドは 4 つの主要な部分で構成されます。

センサーの埋め込み、センサーの埋め込み: 埋め込みベクトルを使用して、各センサーの固有の特性を柔軟にキャプチャします。
グラフ構造学習、グラフ構造学習: グラフ構造学習はセンサーペア間の関係を学習し、それらをグラフ内のエッジとしてエンコードします。
グラフアテンションベースの予測、グラフアテンションに基づく予測: グラフ内の隣接するセンサーのアテンション関数に基づいてセンサーの将来の動作を予測します。
グラフ偏差スコアリング、グラフ偏差スコアリング: グラフから学習したセンサー関係の偏差を特定して説明し、これらの偏差を位置特定して説明します。

ここに画像の説明を挿入

(1) センサー埋め込み、センサー埋め込み

各センサーの特徴を表す埋め込みベクトルを導入します。 $v_i \in R^d$ 、 $\in \{1,2,...,N\}$ 。

これらの埋め込みベクトル $v_i$ 間の類似性は、動作の類似性を示します。したがって、同様の埋め込み値を持つセンサー間には高い相関関係があるはずです。

(2) グラフ構造学習、グラフ構造学習

グラフ構造の学習では、ノードがセンサーを表し、エッジがセンサー間の依存関係を表す重み付き有向グラフを学習します。
センサー $i$ について、センサー $i$ の埋め込みベクトルとその候補関係 $C_i$ $e_{ji}$ の類似度 (正規化された内積) $e$ ：
$e_{ji} = \frac{\pmb{v_i}^T\pmb{v_j}}{||\pmb{v_i}|| C_i の j に対して \cdot ||\pmb{v_j}||}$

次に、前の $k$ このような正規化された内積、 $k$ の値は、希望するスパース度に応じてユーザーが選択できます。
$A_{ji} = 1\{j\in TopK({e_{ki}:k\in C_i})\}$
ここで、1{·}は指示関数、つまり1{值为真的表达式} = 1,1{值为假的表达式} = 0。

事前情報がない場合、センサー $i$ の候補関係は、それ自体を除くすべてのセンサーです。

(3) グラフアテンションベースの予測、グラフアテンションに基づく予測

時間に $t$ の過去の時系列データに基づいていますモデルの入力である $w$ $s^{(t-1)}}] として定義されます。$ 。モデルが予測する必要があるターゲット出力は、現時点のセンサーデータ、つまり $s^{(t)}$ 。

センサーのさまざまな動作を捕捉するために、グラフアテンションベースの特徴抽出器を導入し、学習したグラフ構造に基づいてノード情報と隣接ノードを融合します。 zi
$\pmb{z}^{(t)}_i = ReLU(\alpha_{i,i}\pm) b{W} \pmb{x}^{(t)}_i + \sum\limits_{j\in N(i)} \alpha_{i,j} \pmb{W}\pmb{x}^{(t)}_j)$ 其中， $\pmb{x}^{(t)}_i$ モデル入力の場合、 $N(i) = \{ j | A_{ji} > 0 \}$ 、 $W$ はトレーニングから得られた重み行列です。係数 $\alpha_{i,j}$ 計算式は次のとおりです。

ここに画像の説明を挿入
このようにして、すべての N 個のノードの表現、つまり ${z z_{1}^{(t} 、 z z_{2}^{(t} 、 ... 、 z z_{N}^{(t}}$

各 $\pmb{z}^{(t)}_iについて$ $\pmb{v}_i$ に関連付けます $v v$ 要素ごとの乗算を実行します ( $\circとして示されます)$ )、すべてのノードの計算結果を N 次元全結合層の入力として取り、 $時刻t$ におけるセンサー値の $\pmb{s}^{(t)}$ ：
$\pmb{\widehat{s}^{(t)}} = f_\theta ([ \pmb{v}_1 \circ \pmb{z}^{t}_1 , \pmb{v}_2 \circ \pmb{z}^{t}_2 , ... , \pmb{v}_N \circ \pmb{z}^{t}_N ])$
モデルの予測出力が実際の値にできるだけ近いことが望ましいため、予測出力 $\pmb{\widehat{s}^{(t)}} を$ と観測データ $\pmb{s^{(t)}}$ は損失関数として最小化されます。
$L_{MSE} = \frac{1}{T_{train - w}} \sum\limits^{T_{train}}_{t=w+1} || \pmb{ \ワイドハット{s}^{(t)}} - \pmb{s^{(t)}} ||^2_2$

(4) グラフ偏差スコアリング、グラフ偏差スコア

学習された関係を考慮して、これらの関係から逸脱する異常を検出して説明したいと考えています。

センサー $私は$ にいる時刻 $t$ $Err_i(t) = | s^{(t)}_i - \widehat{s}^{(t)} |$

異なるセンサーの偏差は異なるスケールを持つ可能性があるため、各センサーの偏差は次のように正規化されます。 $a_i(t) = \frac{Err_i(t) - \widetilde{\mu}_i}{\widetilde{\sigma}_i}$ $\ワイドティルデ{\mu}$ _i $メートル$ 是 $Err_i(t)$ 、 $\widetilde{\sigma}_i$ 是 $Err_i(t)$ 四分位範囲 (IQR)。

四分位範囲、IQR は、分布または一連の値の 1/4 と 3/4 の差、つまり IQR = Q3 - Q1 であり、分布の広がりを示す強力な尺度です。

を計算するには $時間t$ を使用します。 $max$ $関数$ はセンサーを集約します (異常はセンサーの小さなサブセット、または単一のセンサーにのみ影響するため):
$\max\limits_i a_i(t)$
の場合 $A (t)$ が設定されたしきい値を超え、 $時刻t$ のデータは

【读论文】多変量時系列におけるグラフニューラルネットワークベースの異常検出

目次