アンドリュー・ウの機械学習(XV) - 異常検出

モチベーションの問題

ここに画像を挿入説明
モデル
、特定の入力xを検出する方法を、与えられたトレーニングセットを与える場合は異常ですか?

最初は、トレーニングデータセット、データの与えられた値に基づいてモデルを確立するために、データは、場合遠い全体のデータセンターから、それが正常と識別されたことを示す、異常として識別されます。
異常検出の例

不正識別は、最も一般的にこれらの特性をモデルによれば、異常な部分、例えばログイン、クリック数、特定のページ、ポストおよび他の時間などのユーザI、の特徴ベクトル表現の系列を識別し、次いで、閾値に基づいて不正行為を識別するために使用されます。同様に、生成物をさらに、異常検出を識別するように構成されています。

ガウス分布

ガウス分布
ガウス分布のパラメータ推定

ガウス分布に基づく異常検出アルゴリズム

モデルの構築

ガウス分布の特性に対応するサンプルデータのそれぞれを想定、モデルは、これらの分布の結合分布に等しいです。一般的には、統計的確率に基づく独立性の乗数仮説を関連付けられているが、サンプルサイズが十分な大きさであれば実際には、独立性はそれほど重要ではありません。
異常検出

第1の選択機能、すなわち、平均値と各特徴について得られた分布の分散、フィッティング特性パラメータを必要とすることができる、特徴ベクトルによって表すことができ、関節分布の全ての機能を備えたモデルを構築し、新しいサンプル点xが与えられると、に応じて計算値モデルは、しきい値εよりも小さくはありません確認してください。
外れ値識別例

各フィッティングパラメータ、P =高さが上図の三次元のように表現される前記地図データ上の2つの機能があります。

異常検出システムの開発と評価

追加したとき、あなたは追加の機能を計算し、いずれの場合なしでできるときに特徴選択を行って、機能選択を行う、あなたは私たちが新しい機能を追加するかどうかを知りたい場合は、評価指標の値が非常に重要になってきますこの機能は、数値インデックスを返すとき、アルゴリズムは効果が改善されるかどうかを決定するために使用することができます。
学習アルゴリズムの数値評価
データ分類

上記方法に従って評価10の000の正常サンプルおよび20個の異常サンプルが存在すると仮定する。特徴ベクトル計算されたパラメータ、モデル構造をトレーニングのセットは、サンプルの割合が異なる分類方法がありますが、テスト・セットの検証セットと同時にしないでください。
アルゴリズムの評価

その後、最初に構築したモデル、ガウス分布の摩擦ブックの確立、そして、ラベルyは、サンプルがあるラベル、と実際にあるので、リンクすることにより、トレーニングセットの機能缶内の各サンプルにYをモデルを取ります私たちは、モデルの品質を決定するのに役立ちます。モデル後、アルゴリズム評価し、認証を集中、検証つのサンプルセット値Xがモデルに入力され、予測サンプルの閾値タグ検証セットに基づいて、正常な点が閾値より大きかった、閾値はあまり外れ値以上です。そしてそのような等精度、リコール、F-スコアとして評価指標を算出し、実際のラベルサンプルを比較します。

モデルの選択閾値εのため、εの異なる試して、その後、εの最大値に対応するF-スコアを選択することができます。

今、私たちはデータラベルを持っていることを、なぜ線形回帰、ロジスティック回帰と外れ値を特定する他の方法を適用していませんか?

VSは、異常検出を教師あり学習

異常検出および管理学習

陽性サンプル(Y = 1)非常に小さな数、及び陰性試料(Y = 0)試料の非常に大きな数に適した異常検出。この陽性の検体陽性のサンプルは、すべての例外の原因を見つけるには小さすぎたため、教師付き学習搬出場合、それはすべての知識を学ぶことができない、そして将来的にどうなる新しい奇妙があるかもしれない、これらの異常は、今まで観測不能ですが、それはモデル化することができません。対照的に、異常検出は、モデルからの偏差が異常として識別することができるように、サンプルをモデル化する負例の多数あり、どのような理由異常を行います 占いは、迷惑メールの分類を例を横断するとき教師あり学習前に述べたように、それは我々が非常にスパムの数を持っているので、スパムの共通の特徴は、それによって、学習アルゴリズムとモデリングを促進すると結論付けることができます。

従って、負のサンプルの数、すなわち外れ値ほとんど時間は、陰性サンプルは、データ異常検出方法を使用してモデル化することができる場合には、通常のデータ・ポイントのずれを外れ値と考えられる;すなわち、場合陰性サンプル外れ値時間の非常に大きな数は、アルゴリズムが効果的に学ぶことができるので、この時間はあなたが異常なポイントを識別するために、教師付き学習アルゴリズムを選択することができます教師あり学習。

利用に障害のアルゴリズムを選択します

分散処理機能

異常検出を実行する場合、我々はデータの分布がガウス分布に従う、その後、トレーニングセットから推定されたパラメータは、モデルは乗算、その後リンクすることによって構築され、その後、集中型の認証を確認すると信じています。機能の多くは、ガウス分布の分布と一致していない。しかし、実際には、我々はサンプル数が例十分な数のことができますが、調整を行う場合には、モデルの結果(実際には、調整されていないガウス分布に調整することが変換することができます確かに良いです)。指数パラメータを調整することにより、パラメータ値は、等対数、平方根、上に示すことができる調節する多くの方法があり、データの分布がガウス分布になる傾向があります。
 異常検出誤差解析

我々はポジティブサンプル、サンプル中の小さな負の値に大きな値のモデルを取得したいです。分析可能どのような理由は、これらの理由に基づいて、適切な機能を選択するために行く、ということであるとき、我々は最初の初期モデルを確立するために行われ、この方法を取ると、最終的な分析モデルでは、モデルの時にパフォーマンスが低下することができます。一般的な問題は、単一の機能、正常と異常のポイントポイントの量が大きいときには、この時間は、あなたが異常検出に新しい機能を追加することができます。
特徴選択の例
私たちは、問題を決定し、独自の特性を構築することができます。

多変量ガウス分布

異常検出延びる
異常検出、認識されない異常
典型的にはより低いCPU負荷時に、メモリ使用量が低くなければならない、図緑色ドット異常データの左上隅を、異なる点。二つの特徴が、右側に示される二つの座標は、異常箇所の例外は、ビューのCPU負荷ポイントを、それを示さなかった場合、CPU負荷、メモリ使用量分けて考える場合に、値が、以下この点以上である多く存在すると、メモリ使用量の観点からこの時点より大きく、多くのがあります。従って近い点に円より通常、内部原理円内、ガウス異常検出時には、マゼンタの線に合わせて左を分割するためである外れ値を識別することができない異常検出アルゴリズムを使用してポイントは正常ではありません。これは、異なる機能間の関係を無視します。

この異常認識アルゴリズムが不十分で改善するために、改善された異常検出アルゴリズム、多変量ガウス分布があります。
ここに画像を挿入説明
多変量ガウス分布
多変量ガウスモデルがガウス分布とみなされた各特徴のそれぞれの時間分布ではなく、分布に統合され、分配パラメータは、サンプルの共分散行列を示しています。パラメータの変更、分布が変化試料に示すよう:
ここに画像を挿入説明
ここに画像を挿入説明
ここに画像を挿入説明
ときに変化特性分散しながら
、特徴ベクトルの分散にのみ変化するとき
2つの特徴ベクトル高度に相関するとき
、共分散行列の副対角要素の寸法が2を表します特徴の相関係数、従って、大きな値、より大きな二つの特徴の相関、図に示すように、サンプル分布。相関係数が負の場合、負の相関は、2つの特徴を示し、同様に、サンプル分布が次の通りれる:
ここに画像を挿入説明
前記負の相関を
平均時間を変更するとき、分布のピークが変化する、すなわち、平均変化は、全体の流通センターを移動させることです。
ここに画像を挿入説明
平均変化多変量ガウス分布

多変量ガウス分布の異常検出

ここに画像を挿入説明
多変量ガウス分布のパラメータ推定
多変量ガウス分布では、推定すべきパラメータは、平均ベクトルとシグモイド関数です。
ここに画像を挿入説明
多変量ガウス分布モデル
パラメータが決定した後、ときに異常識別される閾値εよりも小さい場合、モデルは、新たなサンプルxが与えられると、上記式に従って設定することができます。
ここに画像を挿入説明
ガウスモデルとの単変量比較
一変量ガウス分布は、実際には特別な事情がガウス分布を多変量互いに独立のサンプルの特徴であります
ここに画像を挿入説明

ガウス分布を持つ伝統的な多変量ガウス分布と比べて
手に関連する機能は、キャプチャ異常な関係の間の関係を確立する場合、これは独自の識別を確立していない場合は、従来のガウス分布において、それは、従来のガウス異常検出を使用して可能です関係、それは使用多変量ガウス分布に適した、それは自動的に機能間の関係をキャプチャします。ガウス分布が可能であるとき、伝統的な訓練の使用は小さく設定し、多変量ガウス分布を使用するように、それはデータを訓練が必要です大量に、トレーニングデータセットの量mが数nは、一般的にM> 10Nよりもはるかに大きいであり、より良い、そうでなければ、単数が存在するであろう。さらなる利点は、従来の単純なガウス分布を算出し、その特性の数と多変量ガウス分布の増加の計算量であってもよいです。

あなたが持っていた場合は、多変量ガウス分布の使用における特異行列は、次の2つの側面に問題がある可能性があります:1は、データの量が少なすぎると、それははるかに機能要件の数を超えて到達していない、冗長性が存在することを特徴とする一方で、それはの特徴であります間に直線関係があります。
参考アンドリュー・ウの機械学習-異常検出
の異常検出アンドリュー・ウ機械学習ノート
中国語版ノートを学習アンドリュー・ウ・マシン:異常検出(異常検出)

公開された80元の記事 ウォンの賞賛140 ビュー640 000 +

おすすめ

転載: blog.csdn.net/linjpg/article/details/104331948