【論文読解】大規模ネットワークにおける異常トラフィックの検出

元のタイトル: 大規模なネットワークでの異常なトラフィックの検出
元の著者: Mahmoud Said Elsayed; Nhien-An Le-Khac; Soumyabrata Dev; Anca Delia Jurcut
プレゼンテーション会議: ISNCC 2020
元のリンク: https://ieeexplore.ieee.org/abstract /document/9297358
中国語のタイトル: 大規模ネットワークにおける異常なトラフィックの検出

1 モチベーション

Web サービスとアプリケーションの動的な成長は、さまざまな攻撃によって悪用される可能性のあるセキュリティ ギャップと新しいリスクを生み出します。たとえば、ユーザーからルート (U2R) およびリモートからローカル (R2L) への攻撃クラスは、重大な損害を引き起こし、ネットワーク システム全体をダウンさせる可能性があります。このような攻撃は、通常のトラフィックとの類似性が高いため、検出が容易ではありません。ネットワーク異常検出システムは、悪意のあるトラフィックを分類および検出するために広く使用されていますが、不均衡なデータセットで少数の攻撃を検出および識別するには、まだ多くの課題がありますこのホワイトペーパーでは、これらの攻撃のほとんどに対抗できる既存の機械学習 (ML) アプローチの詳細かつ体系的な分析を提供します。さらに、ネットワーク トラフィック内の悪意のあるトラフィックを正確に検出できる長短期記憶 (LSTM) オートエンコーダを使用したディープ ラーニング (DL) ベースのフレームワークを提案します。公開されている侵入検知システム (IDS) データセットで実験を行います。他のベンチマーク方法と比較して、攻撃検出が大幅に改善されています。したがって、私たちのアプローチは、これらのネットワークを悪意のあるトラフィックから保護する上で大きな自信を提供します。

2 論文の主な仕事

  • 関連する ML ベースの方法を確認し、その制限について説明します。
  • 高度に識別可能な入力特徴空間をエンコードする DL ベースのモデルと、ネットワーク内の悪意のあるトラフィックを検出する LSTM ベースの方法を提案します。
  • 公開されている NSL-KDD データセットで攻撃を検出するために、いくつかの最先端の機械学習モデルのベンチマークを行います。サイバー攻撃を検出するために提案された方法は、既存のベンチマーク データセットで最高のパフォーマンスを発揮します。

3 つのデータセット

この記事のデータ セットは NSL-KDD を使用しています. データ セットの詳細な紹介については、NSL-KDD データ セットの概要を参照してください.

4 検出方法

次の図は、この論文のモデルの全体的な構造を示しています。
ここに画像の説明を挿入
このモデルは、LSTM オートエンコーダーを使用して、教師なしでネットワーク データセットの表現を学習します。私たちのモデルには、それぞれが複数の LSTM セルで構成されるエンコーダーとデコーダー ステージの複数のレイヤーが含まれています。入力データ Xt はエンコーダ ブロックによってエンコードされ、固定範囲の特徴ベクトル Zt が生成されます入力データ Xt ∈ ℝ122×1 は、データセット から生成された最初のエンコードされた特徴ベクトルですLSTM ブロックのタイムスタンプ = 1 を設定します。時系列ではなく、単一のイベントに LSTM ブロックを使用します。エンコーダ ブロックは、122 次元の初期特徴ベクトルの次元を順次削減します。エンコーダーの 1 番目、2 番目、3 番目のレイヤーの後、次元はそれぞれ 32、16、8 に縮小されます。最終的なエンコードされた特徴ベクトル Zt ∈ ℝ8×1 は、圧縮された入力データを表します

エンコードされたデータはデコーダ ブロックに送られ、出力特徴ベクトルが生成されます。デコーダ ブロックの入力特徴ベクトルを とします。デコーダ ブロック Zt^ 内のレイヤは、エンコーダ レイヤの逆の順序で配置されます。エンコードされた特徴 Zt^ は、一連の LSTM ブロックを介して供給され、出力特徴ベクトル Xt^ が生成されます。デコーダーの 1 番目、2 番目、3 番目の層の後、次元はそれぞれ 8、16、32 に増加します。最後に、デコーダ ブロックの最後の層が全結合層に供給され、出力特徴ベクトル Xt^ が生成されます。この出力特徴ベクトル Xt を再構成して、入力特徴ベクトル Xt に類似させようとします。平均二乗誤差 (MSE) を使用して、入力データ Xt と出力表現 Xt^ の間の推定誤差を計算します。

この記事の核となる考え方は、通常のトラフィックを再構築した後のエラーは異常なトラフィックよりも小さいと著者が信じているため、トレーニング フェーズでは、モデルは通常のトラフィック データのみをトレーニングするというものです。テストでは、各入力の再構築エラー値が計算され、エラー値が特定のしきい値よりも大きい入力が異常と判断されます (この記事ではバイナリ分類のみを行います。つまり、攻撃カテゴリを具体的に分類するものではありません)。 .

この論文で得られた通常のトラフィックと攻撃トラフィックの再構築しきい値:
ここに画像の説明を挿入

5 実験評価

著者は、しきい値を 0.00368 に設定しました。ROC 曲線は次のとおりです。
ここに画像の説明を挿入
他の実験との比較:ここに画像の説明を挿入

6 まとめ

本論文では、LSTM+オートエンコーダに基づく深層学習攻撃トラフィック検出方法を提案します。
モデルは、検出対象のデータに対して 2 つの分類を実行できます (特定の攻撃の種類を区別せずに、通常と攻撃のみ)。ただし、著者は入力の具体的な情報を提供しませんでしたが、同時に、この記事の核となるアイデア: 異常検出に再構成誤差を使用することのロバスト性を検証する必要があり、オーバーフィッティングの疑いがあると感じています.

おすすめ

転載: blog.csdn.net/airenKKK/article/details/124620651