ビッグデータおよびネットワークセキュリティ分野における人工知能、応用および改善

ネットワーク セキュリティの分野における暗号化トラフィックの検出は一般的なトピックですが、人工知能の発展に伴い、同じ問題に対してさまざまな解決策がもたらされています。

近年、既存のネットワークセキュリティ分野にAIを適用しようとする研究者が増えています。以前の危険な記事より 人工知能のサイバーセキュリティ? もっと真剣になってください!, これまでのところ、いくつかは実際の実験結果です。ご覧のとおり、科学は確かに進歩しています。ネットワークセキュリティ分野におけるAIの応用は確かに増加しています。

NSFOCUS Tianshu Lab が公開した信頼できる論文は、「深層学習に基づく IoT マルウェア ファミリの詳細な分類に関する研究」です。自分のアイデアを具体的な実験で検証することで、著者が実際にAIを使って何かをしていることがわかり、問題解決のためのアイデアもとても勉強になります。もちろん、ビジネスおよびプロフェッショナル向けの AI アルゴリズムの観点から見ると、まだ欠陥があり、改善の余地があります。今日は、空中で話し、この方法のいくつかの方法について詳しく説明します。

1 記事では、トロイの木馬を特定する主な考え方

この記事「深層学習に基づくモノのインターネットのマルウェア ファミリの詳細な分類に関する研究」の主なアイデアを一言で言えば、トロイの木馬通信の pcap パケットを分割し、AI 画像分類を使用するということです。トレーニング用モデル。AIの分類機能を利用して、トロイの木馬の通信データから手がかりを見つけるのが原理だ。

この種の考え方は非常に創造的であり、トラフィック測定から始めることは、ネットワーク セキュリティ問題の主要な解決策の 1 つでもあります。賞賛に値するのは、著者が自分のアイデアの実現可能性を検証するためにいくつかの実験も行ったことです。図に示すように:
ここに画像の説明を挿入

この結果から、このアプローチには一定の認識能力があることがわかりますが、カテゴリ 4、8、10、および 11 の分類問題など、特定の問題も明らかになります。

このような結果を前に、私はそれを徹底的に分析したくて仕方がありませんでしたが、分類モデルは問題なく、問題はビジネス レベルでのデータ処理リンクにあると考えています。

2 ビジネス視点での改善

ビジネス データの処理方法については、記事で説明されています。「まず、現在人気のある IoT マルウェア ファミリを調査し、次に内部プラットフォームでサンプルをクエリしてダウンロードし、合計 12 の悪意のあるファミリのサンプルをダウンロードし、最後に対応する pcap データ パッケージを返します。そして、USTC-TK2016 ツールセットを使用してデータを前処理します。」

この問題を理解するには、USTC-TK2016 ツールが何を行うのかを理解する必要があります。

2.1 USTC-TK2016 ツールセットは何をしましたか?

USTC-TK2016 ツール セットは、すべてのセッションの最初の数バイトをまとめて切り取り、余分な部分を削除し、十分でない場合は 0 を埋めます。このアプローチは実際には DPI のデータ処理に非常に似ており、DPI システムでは各フローの最初の数バイトの分析に重点が置かれています。もちろん、実際の状況では、作者はこれをしないかもしれません。ただし、記事からは具体的な方法が見えないので、最初に方法を分析しましょう。これは著者とは関係なく、単なる技術的な議論です。

これを実行するとどうなりますか? 下を見てみよう

2.2 データ収集の問題

上で述べた方法によれば、本質は会話を認識の対象として捉え、それを使って訓練することです。つまり、セッションから一定の規則に従って 784 バイトを取り出し、28*28 のサイズのピクチャに変換し、ピクチャの形式で分類します。

大量のデータ分析の観点から、入力としてセッション内のデータ行に依存することはお勧めできません。各 APP には複数のセッションの可能性があり、場合によっては、複数の APP に同様のセッション データがある可能性があるためです。

もう 1 つの問題は、これらのトロイの木馬がいわゆるサンドボックス内で実行される場合、生成されるトラフィックが必ずしもすべてがトロイの木馬のトラフィックであるとは限らず、一部のトラフィックは、接続されている win10 や特定の Linux の場合などのバックグラウンド トラフィックである可能性もあります。オペレーティング システムが使用されている場合、システム自体によってトラフィックが生成されます。この記事では掃除音については言及されていません。データ処理時にこれらのノイズ除去アクションが実行されない場合、認識効果にも影響します。

2.3 重要な情報を削除

データ クリーニングの段階で、作成者がトラフィック データに固有の IP アドレスなどの情報をランダムに置き換えたため、モデルは認識タスクで多くの手がかりを失いました。実際、トロイの木馬の通信トラフィックにおいて、リモート IP とポートは特に固定されたセットであり、これがトロイの木馬を識別するための最も有利な手がかりとなります。

一般的に、トロイの木馬は C2 サーバー (コマンド アンド コントロール サーバー) と通信しますが、そのような C2 サーバーは世界に数が多くありませんが、固定されているため、いくつかのアドレスを直接使用し、いくつかの固定ポートを追加することで問題を解決できます。すぐに。

もちろん、このように直接使用すればモデルを決定でき、人工知能はまったく必要ありません。実際、これも事実です。

最も有用な情報を自分で削除し、それを観察して微妙な特徴から分類するのですが、これは私自身の問題だと感じています。これは、AIを目的として使用するのではなく、実際のニーズに応じてAIを使用するというAI活用の本質に反します。

2.4 AI は適切なシナリオで使用する必要がある

AI アプリケーション シナリオの観点から見ると、この記事は実現可能なソリューションですが、最適なソリューションではありません。実際、現在のテクノロジーでは、DPI はすでにこのレベルでのアプリケーション認識の完璧な仕事を行っています。

記事の冒頭では、従来の DPI システムでは暗号化されたデータが認識できないという現象についていくつかの問題点を指摘しました。著者が提供したシナリオでは、関係するトラフィックの 80% または 90% がこの決定論的な DPI モデルを使用して識別されるためです。さて、認識された結果に加えて、それを再認識するために人工知能を使用する必要は少しありません。しかし、学術的な観点から見ると、著者が行った実験は依然として価値があります。少なくとも、トラフィックを介したアプリケーション識別の分野で AI を使用する実現可能性が証明されました。

この記事は、その方法を使用して DPI を無効にすることを目的としていますが、実際、暗号化されたデータの識別の問題を解決できる理由は証明されていません。暗号化されたデータの場合、さまざまなグラフが表示される可能性があるためです。

ただし、純粋に記事内のこの特定のシーンについては、本質的に多項式アルゴリズムを直接使用することで完全に記述することができます。実際、人工知能は使用すべきではありません。

2.5 セキュリティ分野で AI を活用するには?

本稿に関する限り、ある送信元アドレスからのデータを識別対象とすることや、ある送信元アドレスからの各セッションを個別に識別することは困難である。

それをやりたい場合は、考えを変えて、リモート エンドの特定のアドレスを認識ターゲットとして使用することもできます。そのほうが良いでしょう。IP 単位で個人の意図をよりよく把握できるためです。また、モニタリング セッションは 1 つだけではなく、複数のセッションの結合後に生成される全体的な動作に基づいた定性的なものである必要があります。

ここに画像の説明を挿入

画像自体は 2 次元データであるため、データを分類するために画像に変換するのは非常に良いアイデアですが、この特性を最大限に活用するために、変換プロセスでは各セッションが行として使用され、複数のシーケンスが 1 つのシーケンスとして使用されます。イベントそのものの情報を最大限に復元します。単一データの 1 次元の特徴を 2 次元に直接変換して処理するのではなく。

2.6 より優れた AI 技術サポート

セキュリティ分野の方々がAIを活用して、地に足の着いた実験や研究をされているのを見るのは、AI担当者としてとても嬉しいことです。AI テクノロジーの開発と推進は、私たちの世代の同僚の努力と切り離すことができません。

上記は、過去の経験に基づいたこの記事の技術的手法のほんの一部です。私たちは安全な環境の出身ではないので、十分でない場合は修正してもらいたいと考えています。

以下では、業界の同僚の助けになればと考えて、AI に関する私たちの経験の一部を紹介します。

1. スーパーマルチカテゴリの認識問題、特に APP 認識問題の場合、分類アルゴリズムを使用することはお勧めできません。種類が多すぎて、ほとんどの分類は教師あり学習に依存しているため、サンプルを見ずに分類モデルをトレーニングするのは困難です。特に、APP のバージョン更新に問題があり、新しいバージョンでは一連の機能が変更されるため、正しく配置してキャプチャすることができません。

2. この種の超多カテゴリ認識問題では、空間距離をフィッティングすることにより類似性マッチングを行う表現学習を使用することをお勧めします。これにより、さまざまな未知の状況に対処でき、教師なしトレーニングへのスムーズな移行が可能になります。

3. 記事で言及されている分類モデルは非常に成熟していますが、古すぎます。使用されている入力形式は、現在ではほとんど使用されていません。ResNet や NasNet など、現在の主流の分類モデルを使用することをお勧めします。現在の最先端の分類モデルは EfficientNet です。「EfficientNet シリーズ モデルの技術的解釈」では、このモデルを使用すると分類効果が大幅に向上する可能性があることに注意することが推奨されています。

4. 自己エンコーディング、変分自己エンコーディング、相互情報量の最大化、f-gan など、いくつかの優れた教師なしトレーニング モデルを参考として推奨します。これらのテクノロジーは、ネットワーク セキュリティに関するデータ研究に多くのインスピレーションを提供します。

ここに画像の説明を挿入

5. 未知の分類については、未知の脅威の特定と処理も現在の研究の方向性です。この比較的困難な課題は、私たちの大きな関心を呼び起こしました。現在はグラフニューラルネットワークとゼロショット学習の関連技術を主に利用しています。現時点での成果や知見も書籍に記載されており、今後出版される予定です。同時に、この分野で研究をしてきた同僚たちがコミュニケーションをとり、互いに学び合えることを願っています。
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/weixin_43672348/article/details/106213972