情報エントロピー、情報ゲインと情報利得の割合

情報エントロピー、情報ゲインと情報利得の割合

エントロピー(情報エントロピー)

エントロピーのパラメータは、サンプルセット内のサンプルが、彼らは多くの異なるカテゴリがある場合、それは、1つのカテゴリにのみ属することが、多くの異なるクラスに属することができるサンプルのセット与えられた、あるサンプルセット、の純度を評価するために使用されますその後、我々は唯一のカテゴリに属している場合、我々は、サンプルが純粋であると言う、サンプルが不純であると言います。
  そして、このことは、サンプルデータセットを計算するための情報エントロピーが純粋か不純です。以下の式で:
   耳鼻咽喉科(D)= - =Σ| Y | K 1pklog2pkEnt(D)= - \ sum_ 1} ^ {K = {\左| Y \権利| P_} {2} {K} LOG_ P_ K {。 }耳鼻咽喉科(D)= - ΣK = 1 | Y | PK LOG2 PK
  以下の式が意味は、実際には、よく純度のセットを計算し、理解説明し、それは各カテゴリのシェアの比率を設定することですpkp_kpk(1からのK | Y | \左| Y \右| | Y | 、請求| Y | \左| Y \右| | Y | カテゴリの数を示す)追加し、その対数を乗じ一緒にし、その後計算後、データセットの情報エントロピーを得ることができ、次いで、情報エントロピーは、データが純粋な設定かどうかを判断することができます。より純粋なもの、このデータセットを示し、エントロピー小さいです。最小エントロピーは、データセットDは、唯一のカテゴリが含まれ、0です。

インフォメーション・ゲイン(情報ゲイン)

以下の情報ゲイン、いわゆる情報ゲインを導入すること、の点で特定のプロパティに向けることである、例えば、データセットDは、2つのカテゴリ、すなわち、良い、悪いを含むので、ちょうど右のプロパティを選択し、例えば、男性と女性は、データセットDを分割する場合性別、性的この属性は、二つの値、男性と女性の両方が含まれ、次いで、二組、それぞれDmanD_ {男} DMANとDwomanD_ {女性} Dwomanを与えます。良い及び悪いと分割された各、それはそれぞれ、分割の二組の純度を算出することができる、計算後、エントロピーA加重平均DmanDEnt(DMAN)のこれら二組+ DwomanDEntの二組(Dwoman)\ FRAC {D_ {男}}、{D}耳鼻咽喉科(D_ {男性})+ \ FRAC {D_ {女性}}、{D}耳鼻咽喉科(D_ {女性})DDman耳鼻咽喉科(DMAN)+ DDwoman耳鼻咽喉科(Dwoman )、前者マイナス後者に比べて情報エントロピー耳鼻咽喉科(D)耳鼻咽喉科(D)耳鼻咽喉科(D)の分割前の時間がないと、プロパティを取得する - Dを分割して得られた情報ゲイン性別サンプルセット。人気のある、情報利得値であると理解されている属性を持つオリジナルデータセットの分割後、エントロピー値を取得した差分情報は、純度を高めることである、純度を上げることです。次のように情報利得の式は次のとおりです。

ゲイン(D)=耳鼻咽喉科 (D)-ΣVv= 1 | Dvの|| D |耳鼻咽喉科(DV)ゲイン(D)=耳鼻咽喉科(D) - \ sum_ {V = 1} ^ {V} \ FRAC {\左| Dは、^ { V} \右|} {\左| D \右|}耳鼻咽喉科(D ^ {V})ゲイン(D)=耳鼻咽喉科(D)-Σv= 1V | D || Dvの|耳鼻咽喉科(DV)は  
  、式のパラメータを説明するために、Dは、Vの合計値で選択された属性、Vと設定値分割データDのデータセットは、それぞれ、ありますデータセット情報エントロピーデータセットVを求め、加重平均を求めているD1D_1D1 DVD_VDVを得ました。2つの違いは、情報利得を得ることです。
  そして、どのような利用情報利得は、それを何ですか?有用な、情報ゲインが比較的大きい場合、このプロパティは、ゲイン値のサイズ情報に基づいて、データセットDの良好な特性を分割するために使用されていることを、データセットDを分割するかどうかを決定するために、このプロパティを使用するか、またはすることができこのプロパティはD.設定データを分割するために適切であると考えられていません これは、決定木を構築することができます。
  既知のアルゴリズムID3はれる情報利得を用いて、基準として分割されたデータセットの属性かどうか。

情報利得比(情報利得比)

なぜ裁判官にこのメソッドはプロパティを分割情報利得の率を上げますか?情報利得は非常に良いではありませんか?実際には、財産の分割方法として、情報利得によって判断は、実際にいくつかの欠陥が、本は言う、これらのプロパティの情報ゲイン基準値を持っているより多くの属性がある好み、意思決定などの情報ゲインの使用を持っていますこの方法は、property属性の値の多くを選択する傾向があります。すると、それのvalue属性の多くを選択する理由は?ID番号は属性として、その後、実際には、各個人のID番号が値の多くの種類がありますどのように多くの人々 、あること、同じでない場合、その値を極端な例を挙げればそれの多くは、上のletの動きは、このプロパティとID番号は元のデータセットD、各サブセットだけ一人、サブセットの数に分割されますどのように多くのサンプルを、元のデータセットDを分割する場合は、この極端なケースでは、人は、唯一のカテゴリ、良いか悪いかに属し、その後、エントロピーの各サブセットのための時間情報が0であることができ、そしてそれは、この時点で、各サブセットであるため、特に純粋です。Dvの|| D | |耳鼻咽喉科(DV)\ sum_ {ここで、第2項は、= 1ΣVv情報ゲイン式つながる V = 1} ^ {V} \ FRAC {\左| D ^ {V} \権利を|} {\左| D \権利を|}耳鼻咽喉科(D ^ {V})ΣV= 1V | D || Dvの|耳鼻咽喉科(DV) 、一体この結果0であり、計算された情報ゲイン特に大規模な場合、決定木は、実際には、この区分が無意味である、元のデータセットDのID番号を分割するために、このプロパティを使用します。したがって、この環境影響を変更するために、財産の分割の審査員として情報利得比を使用して提案しました。
  以下の式は次のとおり
   Gain_ratio(D、A)=ゲイン(D、A)IV(A)ゲイン\ _ratio(D、A)= \ FRAC {ゲイン(D、A)} {IV(A)} Gain_ratio(D、A )= IV()ゲイン( D)
  前記IV()IV() IV() 次のように計算されます。
   IV()= - ΣVv= 1 | Dvの|| D | LOG2 | Dvの|| D | - IV()=左\ sum_ {V = 1} ^ {V} \ FRAC {\ | D ^ V \ 右|} {\左| D \右|} log_2 \ FRAC {\左|} {\左| | D \右|右\ D ^ V} IV()= - ΣV= 1V | D || IOG2 | D || Dvを| Dvの|
  IV()IV() IV() "本質的な価値"と呼ばれ、式IV()IV() IV() でありますあまり馴染みああ、簡単かつ式髪のエントロピー、のような、価値の少量しか含まれている場合は、属性aの純度を確認することです、そして純度が、それ以外の場合は、比較的高い値以上であります、低純度は、IV()IV( ) IV()の値が大きく、得られた情報の利得、したがって、より低いです。
  情報利得比を使用すると、ID3の問題を解決することができる(これらのプロパティのID3の値が複数の特性は、スイカの色は10種類であるような好みを有し有する)、したがって財産の分割が良いか悪いかなどの情報利得比が決定され使用されますこの方法は、C4.5と呼ばれています。
  ことに留意すべきであるプロパティの利得比基準値より少ない嗜好が存在することになる場合に、この問題を解決するために、C4.5を直接最初のスクリーニングの前に再度プロパティ属性の分割として最大利得率を選択し、それを介していない、第一情報ゲインは平均プロパティは、情報、この場合には、二つの面の当量が考慮された、最高速度を得るための残りの部分からプロパティを選択し、取り除くよりも低くなります。(情報ゲイン情報ゲイン率の使用と併せて)

著者:DawnChau
出典:CSDN
オリジナル:https://blog.csdn.net/u012351768/article/details/73469813
著作権:この記事はブロガーオリジナル記事です、再現は、ボーエンのリンクを添付してください!

公開された98元の記事 ウォンの賞賛124 ・は 30000 +を見て

おすすめ

転載: blog.csdn.net/lyc0424/article/details/104733751