損失関数
ロジスティック回帰の確立の過程で、我々は、モデルパラメータのガイド機能を必要とし、それはいくつかの方法で、モデルの有効性を測定することができます。この機能は、損失関数(損失関数)と呼ばれています。
損失関数より小さな、予測はより多くの結果に優れ。だから我々は、トレーニングモデルに問題を置くことができ、損失関数最小化する問題を。
損失関数のさまざまながありますが、このセクションでは、問題の種類の最も一般的な説明クロスエントロピー(クロスエントロピー)の損失を、そしてからの情報理論とベイズの2つの観点のクロスエントロピー損失の意味合いの解釈。
## 式は、参照してください。https://blog.csdn.net/Ambrosedream/article/details/103379183
KLダイバージェンスとクロスエントロピ
-
ランダム変数Xが持つkの異なる値を:,, 。ノートのX の値確率がPである(= X )Pと略します()。
-
クロードは・シャノンは、情報の量を定義します。
注:ここでの数字は、2、Eのような基板の任意の合理的な数でもよいです。異なる塩基数との間で使用される情報が得られ、一定の係数の差です。
ベース2の観点では、情報ユニットのビットの量が、Iは、(X = )X =である情報の量(自己情報)は、この情報から。
-
情報の量がI 確率とP (画像の変化)を以下のように:
イベントが小さい確率情報、大きな情報量:情報の背後にある意味以来。
例えば:誰かがあなたの今後の宝くじ宝くじ当選番号を伝える場合777 777 777、この付加価値の高い情報である、同様の事件の確率は極めて小さいです。誰かが太陽が明日上昇すると表示されたら、それはあなたのための非常に低い値であるが、発生の確率、彼は非常に高いです。大量の情報お年玉くじ、太陽が昇るの情報量が少ないと感じ、私たちはそう。
-
我々は、さまざまな情報源Xが値とる作り、それぞれの確率分布を。
-
エントロピー(エントロピー)は、情報源Xのように定義されます。
H(P)=
-
記載された情報源の確率分布P、S pは、従って、熱力学のエントロピーの概念エントロピーの関数です。H(p)は、また、平均情報としても知られています。
-
我々は、式に従って、H(P)Xは、確率加重平均のすべての値からの情報の量であることがわかります。
-
2つの確率分布pとqは、pとqのKLダイバージェンス(カルバック・ライブラー情報量)です。
-
KLダイバージェンスがされたpの分布に期待します。(注:KLD(P || Q)KLD(P || Q) )
-
上記の式から、我々は見ることができたときや、等しくKLD発散がゼロに等しくなります。我々は、一般的に2つの確率分布間の類似性を記述するKLDを使用するように発散ようKLDの二つは同じ、ゼロ分散します。
-
私たちは、クロスエントロピーを定義します。
-
そのため、2つの式以上、があります。
H(P、Q)= KLD(P || Q)+ H(P)
-
pとqの交差エントロピー分布は、KLダイバージェンスプラスエントロピーPに等しいです。Pは、現在H(P、Q)とKLDを、分布が固定されている(P || Q)が一定H(P)との間の唯一の違いを想定しているので、この場合にはH(p、q)は2つの点を記述するためにも使用することができます部分間の類似度。すなわち:類似H(p、q)が小さい場合、P、Q。
-
訓練サンプルのために{ }ラベルができ、確率分布のカテゴリが与えられます。
-
,,
-
私たちは、配布Qとして見ロジスティック回帰モデルをエクスポートします。
-
、
-
私たちはある類似の分布、クロスエントロピーラベルの出力分布を記述するために使用できるように、可能な限り同様のように分布QとPトレーニングセットの分布にあるできるだけ高いとして回帰モデルの精度を、願っていますので、我々言った損失関数(損失)
式は、クロスエントロピーモデルのサンプル、値が小さいほど、ラベルの予測分布は類似の分布を与えています。