クロスエントロピー
期待する:
期待値はすべての確率変数の平均です。
E(X)=X1*P(X1)+X2*P(X2)+X3*P(X3)
エントロピ:
エントロピーは、予想される情報量を表します。
情報量はどのように計算するのでしょうか?
確率値をLogにマイナス符号を付けたものが情報量となります。
I(X0)=-log(P(X0))
I(X0) は情報エントロピーを表します
公式の理解: 確率が小さいほど情報は大きくなり、確率が大きいほど情報は小さくなります。
通常の考え方に反して、可能性が高いため、誰もが知っているため、この情報の重要性は低くなります。なので情報量は少ないです。
確率が小さいため非常に重要な情報であり、確率が小さく不確実であるため情報量が多い。
エントロピーの公式は次のとおりです。
エントロピーとは、情報量に基づいて期待値を求めること(つまり、確率値を掛け合わせ、その和を累積すること)であり、エントロピーの式は次のように定義されます。
上記のログ関数はすべて基数 2 です。
例:
二項分布の場合、確率 P(x) で起こる場合と、確率 1-P(x) で起こる場合の 2 通りしかありませんが、このときの情報量の計算処理は以下のようになります。
ここではこれをバイナリクロスエントロピーとは考えないでください。
クロスエントロピーは損失関数です。情報内容は、さまざまな状況で期待されるエントロピーです。エントロピー式に入力される数値はすべて確率値です。上記のように導かれた 2 つの状況におけるイベントの確率値は、P(x) と 1-P(x) の 2 つだけです。
相対エントロピー (KL 発散)
KL ダイバージェンスの定義:
同じ確率変数 X には、2 つの別々の確率 P(x) と Q(x) があります。KL 発散は、2 つの独立した解像度 P(x) と Q(x) 間の差を測定するために使用されます。KL 発散値が小さいほど、P と Q の分布は近くなります。
直感的な理解:
KL と言われる理由は、2 つの分布の違いを比較するためです。それは差し引かれるべきです。ただし、分割はログに反映されます。ログが分割されている場合、それらは差し引かれませんか?
クロスエントロピークロスエントロピー
損失関数としてクロスエントロピーが使用されます。
データの予測された分類状況と実際のクラス状況との間の距離を表します。
このとき、P(X) は実際のサンプルを表し、Q(X) は予測サンプルを表します (この文に注意してください!!! 以下の 3 番目のステップで使用されます)
勾配降下最適化を使用する目的は、予測された分類結果を実際の分類結果にできるだけ近づけることです。つまり、KL ダイバージェンスの値は小さいほど良いことになります。
最初の一歩:
KL ダイバージェンスの公式を導入すると、
2 番目のステップは簡略化されています。
右端の P(xi)/Q(xi) が分割され、除算から減算に変化します 両辺に P(xi) があり、和の符号も
さて、仮定してください
エントロピーの定義式は上で述べたので。上を見ることができます。それで
第三段階
H(x) は P(x) のエントロピーを計算することですが、P(x) は実際のサンプルであることがわかります。そして、その初期値は固定されています。P(X) も定数ですが、次の LOSS では定数は意味を持ちません。その後、これを削除できます。
これが交差エントロピーです。
クロスエントロピーの応用
クロス エントロピーは分類によく使用され、通常はソフトマックスと併用されます。ソフトマックスは確率を取得し、それをクロス エントロピーに組み込みます。クロスエントロピーの値に応じて継続的に調整します。
BCE バイナリクロスエントロピー損失関数。
二項分類損失関数に適用する場合、クロスエントロピー損失関数は次の形式になります。
ソフトウェアのクロスエントロピー損失関数。
クロスエントロピーは、複数のカテゴリの予測値の合計が1になるように出力結果を処理し、クロスエントロピーによる損失を計算するためにソフトマックスでよく使用されます。
参考
https://blog.csdn.net/Albert233333/article/details/127148805