1. 情報量
- 情報量: 事象の発生の難しさを表す尺度
- 確率の低い出来事は起こりにくいため、情報量が多くなります
- 高確率イベント、発生難易度が低いため情報量が少ない
情報式: I ( x ) : = log 2 ( 1 p ( x ) ) = − log 2 ( p ( x ) ) I{(x)} := log_2(\frac{1}{p_{(x) } }) = - log_2(p_{(x)})私(× ):=ログ_ _2(p( x )1)=−ログ_ _2( p( x ))
プロパティ: 独立したイベント A および B の場合: p ( AB ) = p ( A ) p ( B ) p_{(AB)} = p_{(A)}p_{(B)}p( A B )=p( A )p( B )、同時に発生する 2 つのイベントの情報量は、2 つのイベントの情報量を加算したものに等しくなります。I ( AB ) = I ( A ) + I ( B ) I(AB) =I(A ) + I(B)私( A B )=私( A )+私(B )
→ I ( AB ) = log 2 ( 1 p ( AB ) ) = log 2 ( 1 p ( A ) p ( B ) ) = log 2 ( 1 p ( A ) ) + log 2 ( 1 p ( B ) ) = I ( A ) + I ( B ) \quad \quad \rightarrow I{(AB)} = log_2(\frac{1}{p_{(AB)}}) = log_2(\frac{1}{p_{( A)}p_{(B)}}) = log_2(\frac{1}{p_{(A)}}) + log_2(\frac{1}{p_{(B)}}) = I(A) +I(B)→私( A B )=ログ_ _2(p( A B )1)=ログ_ _2(p( A )p( B )1)=ログ_ _2(p( A )1)+ログ_ _2(p( B )1)=私( A )+私(B )
0 ≤ p ( x ) ≤ 1 0 \le p_{(x)} \le 10≤p( x )≤1
例 1: コインを投げ、表の確率p ( A ) = 0.5 p_{(A)} =0.5p( A )=0.5、裏の確率p ( B ) = 0.5 p_{(B)}=0.5p( B )=0.5
→ I ( A ) = − log 2 ( 0.5 ) = 1 \quad \quad \rightarrow I{(A)} = - log_2(0.5) =1→私( A )=−ログ_ _2( 0.5 )=1 ,I ( B ) = − log 2 ( 0.5 ) = 1 \quad \quad I{(B)} = - log_2(0.5) = 1私(B )=−ログ_ _2( 0.5 )=1
例 2: コインを投げ、表の確率p ( A ) = 0.2 p_{(A)}=0.2p( A )=0.2、裏の確率p ( B ) = 0.8 p_{(B)}=0.8p( B )=0.8
→ I ( A ) = − log 2 ( 0.2 ) = 2.32 \quad \quad \rightarrow I{(A)} = - log_2(0.2) =2.32→私( A )=−ログ_ _2( 0.2 )=2.32 ,I ( B ) = − log 2 ( 0.8 ) = 0.32 \quad \quad I{(B)} = - log_2(0.8) = 0.32私(B )=−ログ_ _2( 0.8 )=0.32
結論: 確率が低いイベントには情報量が多く、確率が高いイベントには情報量が少ない
2. エントロピー エントロピー
定義: 確率分布の期待される情報内容: H ( p ) : = E ( I ( x ) ) H(p):=E(I(x))H ( p ):=E ( I ( x )) , (システム全体の情報量とも理解できます。その中で、システム全体は考えられるすべてのイベントで構成されます。たとえば、コインを投げる、前後でシステム全体を構成します)
関数: 確率モデルの不確実性の程度を評価するために使用されます。
- 不確実性が大きければ大きいほど、エントロピーも大きくなる
- 不確実性が小さいほど、エントロピーは小さくなります
例: H ( p ) = ∑ pi I ip = − ∑ pilog 2 ( pi ) H(p) = \sum{p_iI_i^p} = -\sum{p_ilog_2(p_i)}H ( p )=∑p私は私私p=−∑p私はログ_ _2( p私は)
例 1: コインを投げた場合、表の確率p ( A ) = 0.5 p_{(A)}=0.5p( A )=0.5、裏の確率p ( B ) = 0.5 p_{(B)}=0.5p( B )=0.5
H ( p ) = ∑ pi I ip = p ( A ) ⋅ log 2 ( 1 / p ( A ) ) + p ( B ) ⋅ log 2 ( 1 / p ( B ) ) = 0.5 ⋅ log 2 ( 1 / 0.5 ) + 0.5 ⋅ log 2 ( 1 / 0.5 ) = 0.5 ⋅ 1 + 0.5 ⋅ 1 = 1 \quad \quad \begin{aligned} H(p) &= \sum{p_iI_i^p} \\ &= p_{ (A)} \cdot log_2(1/p_{(A)}) + p_{(B)} \cdot log_2(1/p_{(B)}) \\ &= 0.5 \cdot log_2(1/0.5) + 0.5 \cdot log_2(1/0.5) \\ &= 0.5 \cdot 1 + 0.5 \cdot 1 \\ &= 1 \end{aligned}H ( p )=∑p私は私私p=p( A )⋅ログ_ _2( 1/ p( A ))+p( B )⋅ログ_ _2( 1/ p( B ))=0.5⋅ログ_ _2( 1/0.5 )+0.5⋅ログ_ _2( 1/0.5 )=0.5⋅1+0.5⋅1=1
例 2: コインを投げ、表の確率p ( A ) = 0.2 p_{(A)}=0.2p( A )=0.2、裏の確率p ( B ) = 0.8 p_{(B)}=0.8p( B )=0.8
H ( p ) = ∑ pi I ip = p ( A ) ⋅ log 2 ( 1 / p ( A ) ) + p ( B ) ⋅ log 2 ( 1 / p ( B ) ) = 0.2 ⋅ log 2 ( 1 / 0.2 ) + 0.8 ⋅ log 2 ( 1 / 0.8 ) = 0.2 ⋅ 2.32 + 0.8 ⋅ 0.32 = 0.72 \quad \quad \begin{aligned} H(p) &= \sum{p_iI_i^p} \\ &= p_{ (A)} \cdot log_2(1/p_{(A)}) + p_{(B)} \cdot log_2(1/p_{(B)}) \\ &= 0.2 \cdot log_2(1/0.2) + 0.8 \cdot log_2(1/0.8) \\ &= 0.2 \cdot 2.32 + 0.8 \cdot 0.32 \\ &= 0.72 \end{aligned}H ( p )=∑p私は私私p=p( A )⋅ログ_ _2( 1/ p( A ))+p( B )⋅ログ_ _2( 1/ p( B ))=0.2⋅ログ_ _2( 1/0.2 )+0.8⋅ログ_ _2( 1/0.8 )=0.2⋅2.32+0.8⋅0.32=0.72
結論:
確率密度が均一であれば、生成される確率変数の不確かさはより高く、エントロピーの値は大きくなるが、確率密度が集まると、生成される確率変数の確実性はより高く、エントロピーの値は大きく
なる小さい
3. クロスエントロピー
真の確率分布がppであると仮定します。p、予測確率分布 (推定確率分布) はqqq
定義: 予測確率分布qqq対真の確率分布pppの平均情報量の推定はクロスエントロピーと呼ばれます
公式 :H ( p , q ) = ∑ pi I iq = − ∑ pilog 2 ( qi ) H(p, q) = \sum{p_iI_i^q} = -\sum{p_i log_2(q_i)}H ( p ,q )=∑p私は私私q=−∑p私はログ_ _2( q私は)
例 1: コインを投げた場合、表が出る真の確率p ( A ) = 0.5 p(A)=0.5p ( A )=0.5、裏の実際の確率p ( B ) = 0.5 p(B)=0.5p ( B )=0.5 ; 正の推定確率q ( A ) = 0.2 q(A)=0.2q ( A )=0.2、負の推定確率q ( B ) = 0.8 q(B)=0.8q ( B )=0.8
H(p,q) = − ∑ pilog2(qi) = p(A) ⋅log2(1/q(A)) + p(B) ⋅log2(1/q(B)) = 0.5 ⋅ log 2 ( 1 / 0.2 ) + 0.5 ⋅ log 2 ( 1 / 0.8 ) = 0.5 ⋅ 2.32 + 0.5 ⋅ 0.32 = 1.32 \quad \quad \begin{aligned} H(p, q) &= -\sum{p_ilog_2( q_i)} \\ &= p_{(A)} \cdot log_2(1/q_{(A)}) + p_{(B)} \cdot log_2(1/q_{(B)}) \\ &= 0.5 \cdot log_2(1/0.2) + 0.5 \cdot log_2(1/0.8) \\ &= 0.5 \cdot 2.32 + 0.5 \cdot 0.32 \\ &= 1.32 \end{aligned};H ( p ,q )=−∑p私はログ_ _2( q私は)=p( A )⋅ログ_ _2( 1/ q( A ))+p( B )⋅ログ_ _2( 1/ q( B ))=0.5⋅ログ_ _2( 1/0.2 )+0.5⋅ログ_ _2( 1/0.8 )=0.5⋅2.32+0.5⋅0.32=1.32
例 2: コインを投げた場合、表が出る真の確率p ( A ) = 0.5 p(A)=0.5p ( A )=0.5、裏の実際の確率p ( B ) = 0.5 p(B)=0.5p ( B )=0.5 ; 正の推定確率q ( A ) = 0.4 q(A)=0.4q ( A )=0.4、負の推定確率q ( B ) = 0.6 q(B)=0.6q ( B )=0.6
H(p,q) = − ∑ pilog2(qi) = p(A) ⋅log2(1/q(A)) + p(B) ⋅log2(1/q(B)) = 0.5 ⋅ log 2 ( 1 / 0.4 ) + 0.5 ⋅ log 2 ( 1 / 0.6 ) = 0.5 ⋅ 1.32 + 0.5 ⋅ 0.74 = 1.03 \quad \quad \begin{aligned} H(p, q) &= -\sum{p_ilog_2( q_i)} \\ &= p_{(A)} \cdot log_2(1/q_{(A)}) + p_{(B)} \cdot log_2(1/q_{(B)}) \\ &= 0.5 \cdot log_2(1/0.4) + 0.5 \cdot log_2(1/0.6) \\ &= 0.5 \cdot 1.32 + 0.5 \cdot 0.74 \\ &= 1.03 \end{aligned};H ( p ,q )=−∑p私はログ_ _2( q私は)=p( A )⋅ログ_ _2( 1/ q( A ))+p( B )⋅ログ_ _2( 1/ q( B ))=0.5⋅ログ_ _2( 1/0.4 )+0.5⋅ログ_ _2( 1/0.6 )=0.5⋅1.32+0.5⋅0.74=1.03
結論:
(1) 推定された確率分布が実際の確率分布に近づくほど、クロスエントロピーは小さくなります。
(2) クロスエントロピーの値は常にエントロピーの値より大きい (ギブスの不等式による)
4. 相対エントロピー(KLダイバージェンス、KLダイバージェンス)
KL ダイバージェンスは、相対エントロピーとしても知られるカルバックとライブラーにちなんで名付けられました。
役割: 2 つの確率分布間の差異を測定するために使用されます。
公式 :
D ( p ∣ ∣ q ) = H ( p , q ) − H ( p ) = ∑ pilog 2 ( 1 / qi ) − ∑ pilog 2 ( 1 / pi ) = ∑ pi [ log 2 ( 1 / qi ) − log 2 ( 1 / pi ) ] = ∑ pi [ I q − I p ] # I q − I p である信号量の差 = ∑ pilog 2 ( pi / qi ) \begin{aligned} D(p||q) & = H(p, q) - H(p) \\ & = \sum{p_i log_2(1 / q_i)} - \sum{p_i log_2(1 / p_i)} \\ & = \sum{p_i [log_2( 1 / q_i) - log_2(1 / p_i) ]} \\ & = \sum{p_i [I_q - I_p ]} \quad \quad \quad \# \; I_q - I_p は情報量の差\\ & = \sum{p_i log_2(p_i / q_i)} \\ \end{aligned}D ( p ∣∣ q )=H ( p ,q )−H ( p )=∑p私はログ_ _2( 1/ q私は)−∑p私はログ_ _2( 1/ p私は)=∑p私は[ログ_ _2( 1/ q私は)−ログ_ _2( 1/ p私は)]=∑p私は[私q−私p】#私q−私p情報量の違い=∑p私はログ_ _2( p私は/ q私は)
重要な特性:
(1) ギブスの不等式によると: D ( p ∣ ∣ q ) ≥ 0 D(p||q) \ge 0D ( p ∣∣ q )≥0 ; 分布 q が分布 p とまったく同じである場合、D ( p ∣ ∣ q ) = 0 D(p||q) = 0D ( p ∣∣ q )=0
(2)D ( p ∣ ∣ q ) D(p||q)D ( p ∣∣ q )およびD ( q ∣ ∣ p ) D(q||p)D ( q ∣∣ p )は異なります。つまり、D ( p ∣ ∣ q ) ≠ D ( q ∣ ∣ p ) D(p||q) \neq D(q||p)D ( p ∣∣ q )=D ( q ∣∣ p )
- D ( p ∣ ∣ q ) D(p||q)D ( p ∣∣ q )は、p (実際の確率分布) に基づくqqqと真の確率分布ppp間のギャップ
- D ( q ∣ ∣ p ) D(q||p)D ( q ∣∣ p )は、q に基づくpppと真の確率分布qqq間のギャップ
5. クロスエントロピー損失関数 クロスエントロピー損失
上記から、KL 発散D ( p ∣ ∣ q ) D(p||q) であることがわかります。D ( p ∣∣ q )は、予測分布 q と実際の分布 p の間のギャップを表すため、損失関数を KL 発散として直接定義できます。L oss = D ( p ∣ ∣ q ) Loss =D(p| | q)損失_=D ( p ∣ ∣ q )
であり、モデルの予測分布 q が実際の分布 p とまったく同じであることを望みます。つまり、次のようになります。 損失関数L oss = D ( p ∣ ∣ q ) = 0 Loss = D(p| |q) = 0損失_=D ( p ∣∣ q )=0
損失関数: L oss = D ( p ∣ ∣ q ) = H ( p , q ) − H ( p ) = ∑ pilog 2 ( 1 / qi ) − ∑ pilog 2 ( 1 / pi ) (1) 損失関数: Loss = D(p||q) = H(p, q) - H(p) = \sum{p_i log_2(1/q_i)} -\sum{p_i log_2(1/p_i)} \tag{1}損失関数: Loss=D ( p ∣∣ q )=H ( p ,q )−H ( p )=∑p私はログ_ _2( 1/ q私は)−∑p私はログ_ _2( 1/ p私は)( 1 )
分類問題の場合、実際の分布は単一点分布であり、実際のカテゴリの確率は 1、他のカテゴリの確率は 0 で、次のようになります。
カテゴリー | クラス1 | クラス2 | クラス3 | クラス4 |
---|---|---|---|---|
確率 | 0 | 0 | 1 | 0 |
pclass 1 = pclass 2 = pclass 4 = 0 、 log 2 ( 1 / pclass 3 ) = 0 p_{class1} = p_{class2} = p_{class4} = 0、 \quad \quad log_2(1/p_{class3} ) = 0pクラス1 _ _ _=pクラス2 _ _ _=pクラス4 _ _ _=0 、ログ_ _2( 1/ pクラス3 _ _ _)=0
したがって、H ( p ) = ∑ pilog 2 ( 1 / pi ) = 0 H(p) = \sum{p_i log_2(1 / p_i)} = 0H ( p )=∑p私はログ_ _2( 1/ p私は)=0
損失関数 (1) は、次のようにさらに単純化できます。L oss = D ( p ∣ ∣ q ) = H ( p , q ) − H ( p ) = H ( p , q ) (2) 損失 = D(p| | q) = H(p, q) - H(p) = H(p, q) \tag{2}損失_=D ( p ∣∣ q )=H ( p ,q )−H ( p )=H ( p ,q )( 2 )
H ( p , q ) H(p, q)H ( p ,q )は交差エントロピーであるため、損失関数は交差エントロピー損失関数とも呼ばれます:
Cross _ Entropy _ L oss = H ( p , q ) = − ∑ pilog 2 ( qi ) (3) Cross\_Entropy\_Loss = H (p, q) = -\sum{p_i log_2(q_i)} \tag{3}クロス_エントロピー_ロス_ _ _ _ _ _ _=H ( p ,q )=−∑p私はログ_ _2( q私は)( 3 )
そして、実分布は単一点分布であるため、実クラスの確率pclass = 1 p_{class}=1pクラス_ _ _=1、他のクラスの確率pclass ˉ = 0 p_{\bar {class}}=0pクラス_ _ _ˉ=0
クロス _ エントロピー _ ロス = H ( p , q ) = − log 2 ( qclass ) Cross\_Entropy\_Loss = H(p, q) = - log_2(q_{class})クロス_エントロピー_ロス_ _ _ _ _ _ _=H ( p ,q )=−ログ_ _2( qクラス_ _ _)