情報量、エントロピー エントロピー、クロスエントロピー クロスエントロピー、KLダイバージェンス KLダイバージェンス、クロスエントロピー損失関数 クロスエントロピー損失

1. 情報量

  • 情報量: 事象の発生の難しさを表す尺度
    • 確率の低い出来事は起こりにくいため、情報量が多くなります
    • 高確率イベント、発生難易度が低いため情報量が少ない

情報式: I ( x ) : = log 2 ( 1 p ( x ) ) = − log 2 ( p ( x ) ) I{(x)} := log_2(\frac{1}{p_{(x) } }) = - log_2(p_{(x)})× :=ログ_ _2(p( x )1)=ログ_ _2( p( x ))

プロパティ: 独立したイベント A および B の場合: p ( AB ) = p ( A ) p ( B ) p_{(AB)} = p_{(A)}p_{(B)}p( A B )=p( A )p( B )、同時に発生する 2 つのイベントの情報量は、2 つのイベントの情報量を加算したものに等しくなります。I ( AB ) = I ( A ) + I ( B ) I(AB) =I(A ) + I(B)( A B )=( A )+B

→ I ( AB ) = log 2 ( 1 p ( AB ) ) = log 2 ( 1 p ( A ) p ( B ) ) = log 2 ( 1 p ( A ) ) + log 2 ( 1 p ( B ) ) = I ( A ) + I ( B ) \quad \quad \rightarrow I{(AB)} = log_2(\frac{1}{p_{(AB)}}) = log_2(\frac{1}{p_{( A)}p_{(B)}}) = log_2(\frac{1}{p_{(A)}}) + log_2(\frac{1}{p_{(B)}}) = I(A) +I(B)( A B )=ログ_ _2(p( A B )1)=ログ_ _2(p( A )p( B )1)=ログ_ _2(p( A )1)+ログ_ _2(p( B )1)=( A )+B

0 ≤ p ( x ) ≤ 1 0 \le p_{(x)} \le 10p( x )1

例 1: コインを投げ、表の確率p ( A ) = 0.5 p_{(A)} =0.5p( A )=0.5、裏の確率p ( B ) = 0.5 p_{(B)}=0.5p( B )=0.5

→ I ( A ) = − log 2 ( 0.5 ) = 1 \quad \quad \rightarrow I{(A)} = - log_2(0.5) =1( A )=ログ_ _2( 0.5 )=1 ,I ( B ) = − log 2 ( 0.5 ) = 1 \quad \quad I{(B)} = - log_2(0.5) = 1B =ログ_ _2( 0.5 )=1

例 2: コインを投げ、表の確率p ( A ) = 0.2 p_{(A)}=0.2p( A )=0.2、裏の確率p ( B ) = 0.8 p_{(B)}=0.8p( B )=0.8

→ I ( A ) = − log 2 ( 0.2 ) = 2.32 \quad \quad \rightarrow I{(A)} = - log_2(0.2) =2.32( A )=ログ_ _2( 0.2 )=2.32 ,I ( B ) = − log 2 ( 0.8 ) = 0.32 \quad \quad I{(B)} = - log_2(0.8) = 0.32B =ログ_ _2( 0.8 )=0.32

結論: 確率が低いイベントには情報量が多く、確率が高いイベントには情報量が少ない


2. エントロピー エントロピー

定義: 確率分布の期待される情報内容: H ( p ) : = E ( I ( x ) ) H(p):=E(I(x))H ( p ):=E ( I ( x )) , (システム全体の情報量とも理解できます。その中で、システム全体は考えられるすべてのイベントで構成されます。たとえば、コインを投げる、前後でシステム全体を構成します)

関数: 確率モデルの不確実性の程度を評価するために使用されます。

  • 不確実性が大きければ大きいほど、エントロピーも大きくなる
  • 不確実性が小さいほど、エントロピーは小さくなります

例: H ( p ) = ∑ pi I ip = − ∑ pilog 2 ( pi ) H(p) = \sum{p_iI_i^p} = -\sum{p_ilog_2(p_i)}H ( p )=p私はp=p私はログ_ _2( p私は)

例 1: コインを投げた場合、表の確率p ( A ) = 0.5 p_{(A)}=0.5p( A )=0.5、裏の確率p ( B ) = 0.5 p_{(B)}=0.5p( B )=0.5

H ( p ) = ∑ pi I ip = p ( A ) ⋅ log 2 ( 1 / p ( A ) ) + p ( B ) ⋅ log 2 ( 1 / p ( B ) ) = 0.5 ⋅ log 2 ( 1 / 0.5 ) + 0.5 ⋅ log 2 ( 1 / 0.5 ) = 0.5 ⋅ 1 + 0.5 ⋅ 1 = 1 \quad \quad \begin{aligned} H(p) &= \sum{p_iI_i^p} \\ &= p_{ (A)} \cdot log_2(1/p_{(A)}) + p_{(B)} \cdot log_2(1/p_{(B)}) \\ &= 0.5 \cdot log_2(1/0.5) + 0.5 \cdot log_2(1/0.5) \\ &= 0.5 \cdot 1 + 0.5 \cdot 1 \\ &= 1 \end{aligned}H ( p )=p私はp=p( A )ログ_ _2( 1/ p( A ))+p( B )ログ_ _2( 1/ p( B ))=0.5ログ_ _2( 1/0.5 )+0.5ログ_ _2( 1/0.5 )=0.51+0.51=1

例 2: コインを投げ、表の確率p ( A ) = 0.2 p_{(A)}=0.2p( A )=0.2、裏の確率p ( B ) = 0.8 p_{(B)}=0.8p( B )=0.8

H ( p ) = ∑ pi I ip = p ( A ) ⋅ log 2 ( 1 / p ( A ) ) + p ( B ) ⋅ log 2 ( 1 / p ( B ) ) = 0.2 ⋅ log 2 ( 1 / 0.2 ) + 0.8 ⋅ log 2 ( 1 / 0.8 ) = 0.2 ⋅ 2.32 + 0.8 ⋅ 0.32 = 0.72 \quad \quad \begin{aligned} H(p) &= \sum{p_iI_i^p} \\ &= p_{ (A)} \cdot log_2(1/p_{(A)}) + p_{(B)} \cdot log_2(1/p_{(B)}) \\ &= 0.2 \cdot log_2(1/0.2) + 0.8 \cdot log_2(1/0.8) \\ &= 0.2 \cdot 2.32 + 0.8 \cdot 0.32 \\ &= 0.72 \end{aligned}H ( p )=p私はp=p( A )ログ_ _2( 1/ p( A ))+p( B )ログ_ _2( 1/ p( B ))=0.2ログ_ _2( 1/0.2 )+0.8ログ_ _2( 1/0.8 )=0.22.32+0.80.32=0.72

結論:
確率密度が均一であれば、生成される確率変数の不確かさはより高く、エントロピーの値は大きくなるが、確率密度が集まると、生成される確率変数の確実性はより高く、エントロピーの値は大きく
なる小さい


3. クロスエントロピー

真の確率分布がppであると仮定します。p、予測確率分布 (推定確率分布) はqqq
定義: 予測確率分布qqq対真の確率分布pppの平均情報量の推定はクロスエントロピーと呼ばれます

公式 :H ( p , q ) = ∑ pi I iq = − ∑ pilog 2 ( qi ) H(p, q) = \sum{p_iI_i^q} = -\sum{p_i log_2(q_i)}H ( p ,q )=p私はq=p私はログ_ _2( q私は)

例 1: コインを投げた場合、表が出る真の確率p ( A ) = 0.5 p(A)=0.5p ( A )=0.5、裏の実際の確率p ( B ) = 0.5 p(B)=0.5p ( B )=0.5 ; 正の推定確率q ( A ) = 0.2 q(A)=0.2q ( A )=0.2、負の推定確率q ( B ) = 0.8 q(B)=0.8q ( B )=0.8

H(p,q) = − ∑ pilog2(qi) = p(A) ⋅log2(1/q(A)) + p(B) ⋅log2(1/q(B)) = 0.5 ⋅ log 2 ( 1 / 0.2 ) + 0.5 ⋅ log 2 ( 1 / 0.8 ) = 0.5 ⋅ 2.32 + 0.5 ⋅ 0.32 = 1.32 \quad \quad \begin{aligned} H(p, q) &= -\sum{p_ilog_2( q_i)} \\ &= p_{(A)} \cdot log_2(1/q_{(A)}) + p_{(B)} \cdot log_2(1/q_{(B)}) \\ &= 0.5 \cdot log_2(1/0.2) + 0.5 \cdot log_2(1/0.8) \\ &= 0.5 \cdot 2.32 + 0.5 \cdot 0.32 \\ &= 1.32 \end{aligned};H ( p ,q )=p私はログ_ _2( q私は)=p( A )ログ_ _2( 1/ q( A ))+p( B )ログ_ _2( 1/ q( B ))=0.5ログ_ _2( 1/0.2 )+0.5ログ_ _2( 1/0.8 )=0.52.32+0.50.32=1.32

例 2: コインを投げた場合、表が出る真の確率p ( A ) = 0.5 p(A)=0.5p ( A )=0.5、裏の実際の確率p ( B ) = 0.5 p(B)=0.5p ( B )=0.5 ; 正の推定確率q ( A ) = 0.4 q(A)=0.4q ( A )=0.4、負の推定確率q ( B ) = 0.6 q(B)=0.6q ( B )=0.6

H(p,q) = − ∑ pilog2(qi) = p(A) ⋅log2(1/q(A)) + p(B) ⋅log2(1/q(B)) = 0.5 ⋅ log 2 ( 1 / 0.4 ) + 0.5 ⋅ log 2 ( 1 / 0.6 ) = 0.5 ⋅ 1.32 + 0.5 ⋅ 0.74 = 1.03 \quad \quad \begin{aligned} H(p, q) &= -\sum{p_ilog_2( q_i)} \\ &= p_{(A)} \cdot log_2(1/q_{(A)}) + p_{(B)} \cdot log_2(1/q_{(B)}) \\ &= 0.5 \cdot log_2(1/0.4) + 0.5 \cdot log_2(1/0.6) \\ &= 0.5 \cdot 1.32 + 0.5 \cdot 0.74 \\ &= 1.03 \end{aligned};H ( p ,q )=p私はログ_ _2( q私は)=p( A )ログ_ _2( 1/ q( A ))+p( B )ログ_ _2( 1/ q( B ))=0.5ログ_ _2( 1/0.4 )+0.5ログ_ _2( 1/0.6 )=0.51.32+0.50.74=1.03

結論:
(1) 推定された確率分布が実際の確率分布に近づくほど、クロスエントロピーは小さくなります。
(2) クロスエントロピーの値は常にエントロピーの値より大きい (ギブスの不等式による)


4. 相対エントロピー(KLダイバージェンス、KLダイバージェンス)

KL ダイバージェンスは、相対エントロピーとしても知られるカルバックとライブラーにちなんで名付けられました。

役割: 2 つの確率分布間の差異を測定するために使用されます。

公式 :

D ( p ∣ ∣ q ) = H ( p , q ) − H ( p ) = ∑ pilog 2 ( 1 / qi ) − ∑ pilog 2 ( 1 / pi ) = ∑ pi [ log 2 ( 1 / qi ) − log 2 ( 1 / pi ) ] = ∑ pi [ I q − I p ] # I q − I p である信号量の差 = ∑ pilog 2 ( pi / qi ) \begin{aligned} D(p||q) & = H(p, q) - H(p) \\ & = \sum{p_i log_2(1 / q_i)} - \sum{p_i log_2(1 / p_i)} \\ & = \sum{p_i [log_2( 1 / q_i) - log_2(1 / p_i) ]} \\ & = \sum{p_i [I_q - I_p ]} \quad \quad \quad \# \; I_q - I_p は情報量の差\\ & = \sum{p_i log_2(p_i / q_i)} \\ \end{aligned}D ( p ∣∣ q )=H ( p ,q )H ( p )=p私はログ_ _2( 1/ q私は)p私はログ_ _2( 1/ p私は)=p私は[ログ_ _2( 1/ q私は)ログ_ _2( 1/ p私は)]=p私は[qp#qp情報量の違い=p私はログ_ _2( p私は/ q私は)

重要な特性:
(1) ギブスの不等式によると: D ( p ∣ ∣ q ) ≥ 0 D(p||q) \ge 0D ( p ∣∣ q )0 ; 分布 q が分布 p とまったく同じである場合、D ( p ∣ ∣ q ) = 0 D(p||q) = 0D ( p ∣∣ q )=0

ここに画像の説明を挿入

(2)D ( p ∣ ∣ q ) D(p||q)D ( p ∣∣ q )およびD ( q ∣ ∣ p ) D(q||p)D ( q ∣∣ p )は異なります。つまり、D ( p ∣ ∣ q ) ≠ D ( q ∣ ∣ p ) D(p||q) \neq D(q||p)D ( p ∣∣ q )=D ( q ∣∣ p )

  • D ( p ∣ ∣ q ) D(p||q)D ( p ∣∣ q )は、p (実際の確率分布) に基づくqqqと真の確率分布ppp間のギャップ
  • D ( q ∣ ∣ p ) D(q||p)D ( q ∣∣ p )は、q に基づくpppと真の確率分布qqq間のギャップ

5. クロスエントロピー損失関数 クロスエントロピー損失

上記から、KL 発散D ( p ∣ ∣ q ) D(p||q) であることがわかります。D ( p ∣∣ q )は、予測分布 q と実際の分布 p の間のギャップを表すため、損失関数を KL 発散として直接定義できます。L oss = D ( p ∣ ∣ q ) Loss =D(p| | q)損失_=D ( p ∣ ∣ q )
であり、モデルの予測分布 q が実際の分布 p とまったく同じであることを望みます。つまり、次のようになります。 損失関数L oss = D ( p ∣ ∣ q ) = 0 Loss = D(p| |q) = 0損失_=D ( p ∣∣ q )=0

損失関数: L oss = D ( p ∣ ∣ q ) = H ( p , q ) − H ( p ) = ∑ pilog 2 ( 1 / qi ) − ∑ pilog 2 ( 1 / pi ) (1) 損失関数: Loss = D(p||q) = H(p, q) - H(p) = \sum{p_i log_2(1/q_i)} -\sum{p_i log_2(1/p_i)} \tag{1}損失関数: Loss=D ( p ∣∣ q )=H ( p ,q )H ( p )=p私はログ_ _2( 1/ q私は)p私はログ_ _2( 1/ p私は)( 1 )

分類問題の場合、実際の分布は単一点分布であり、実際のカテゴリの確率は 1、他のカテゴリの確率は 0 で、次のようになります。

カテゴリー クラス1 クラス2 クラス3 クラス4
確率 0 0 1 0

pclass 1 = pclass 2 = pclass 4 = 0 、 log 2 ( 1 / pclass 3 ) = 0 p_{class1} = p_{class2} = p_{class4} = 0、 \quad \quad log_2(1/p_{class3} ) = 0pクラス1 _ _ _=pクラス2 _ _ _=pクラス4 _ _ _=0 ログ_ _2( 1/ pクラス3 _ _ _)=0

したがって、H ( p ) = ∑ pilog 2 ( 1 / pi ) = 0 H(p) = \sum{p_i log_2(1 / p_i)} = 0H ( p )=p私はログ_ _2( 1/ p私は)=0

損失関数 (1) は、次のようにさらに単純化できます。L oss = D ( p ∣ ∣ q ) = H ( p , q ) − H ( p ) = H ( p , q ) (2) 損失 = D(p| | q) = H(p, q) - H(p) = H(p, q) \tag{2}損失_=D ( p ∣∣ q )=H ( p ,q )H ( p )=H ( p ,q )( 2 )

H ( p , q ) H(p, q)H ( p ,q )は交差エントロピーであるため、損失関数は交差エントロピー損失関数とも呼ばれます:
Cross _ Entropy _ L oss = H ( p , q ) = − ∑ pilog 2 ( qi ) (3) Cross\_Entropy\_Loss = H (p, q) = -\sum{p_i log_2(q_i)} \tag{3}クロス_エントロピー_ロス_ _ _ _ _ _ _=H ( p ,q )=p私はログ_ _2( q私は)( 3 )

そして、実分布は単一点分布であるため、実クラスの確率pclass = 1 p_{class}=1pクラス_ _ _=1、他のクラスの確率pclass ˉ = 0 p_{\bar {class}}=0pクラス_ _ _ˉ=0

クロス _ エントロピー _ ロス = H ( p , q ) = − log 2 ( qclass ) Cross\_Entropy\_Loss = H(p, q) = - log_2(q_{class})クロス_エントロピー_ロス_ _ _ _ _ _ _=H ( p ,q )=ログ_ _2( qクラス_ _ _)

おすすめ

転載: blog.csdn.net/weixin_37804469/article/details/126571956