データ解析より大きな、モデリングなど公共の数「に注意してくださいBigData のモデリング」
まずWOEの意味の簡単なレビュー。仮定xは、カテゴリー変数ビン治療または変数、クラスまたはRを含むセグメントに連続しているの値{C1、...、CR、...、CR}; yは0の範囲、目的変数であります(良い)または1(不良)。xとyの周波数テーブルを次のように
1、コンセプトレビュー
まずWOEの意味の簡単なレビュー。仮定xは、カテゴリー変数ビン治療または変数、クラスまたはRを含むセグメントに連続しているの値{C1、...、CR、...、CR}; yは0の範囲、目的変数であります(良い)または1(不良)。xとyの周波数テーブルを次のように
次のようにWOEが定義されて:
変数xは、RクラスWOEあります。
悪いWOE変数xがRクラス良い悪いと比への影響の程度を測定するクラスの良い及び悪い良い比rの比を有する試料全体の対数比です。カテゴリ悪いと良い比率は全体のサンプル悪いよりも大きいことを示し、WOEの0より大きい; WOEバート当量比良好で全体的なサンプルこだわりのカテゴリ悪い比は、カテゴリは全く差別しないことを示すことを示し、0に等しいです良好な比; 0以上WOE、少ない割合よりも全試料と良い良いのそのカテゴリ悪い悪い比を示します。
2、理論的な導出
だから、WOEなぜこの計算?これはWOE計算変数xがx Yで最適化処理をフィッティングとして見ることができるように、上記に定義されWOE、WOE符号化方法が、監視されてから発見されます。書き込まWOEは、x 場合、Rは、最初のクラスを取る場合バイナリダミー変数、変数xがあり、さもなければ。
次のように(1)モデルが定義されます。
定義された損失関数の(2)数:
全試料(3)損失。
(4)損失は最小化され、偏向器は= 0の場合でもすることができます。
したがって、WOEは、単一の変数が計算されるWOEモデリングプロセスをコード化された損失を最小限に抑える、値がWOEの損失、情報のすなわち、最小の損失を最小限に得られます。実際、定数bの異なる値は、異なるWOEコード値を生成するが、WOEが符号化効果に影響を及ぼしません。だから、WOEを説明し、理解しやすい意味します。
另外,通过前述的推导可以看出,使用经过WOE编码后的单变量拟合逻辑回归模型将得到变量系数为1,截距项为b。