なぜ、情報エントロピーは-Σp*ログ(P)として定義される必要がありますか?

なぜ、情報エントロピーは-Σp*ログ(P)として定義される必要がありますか?

情報エントロピーを再解釈する前に、何を最初に必要なのは、情報の量です。

情報量は、情報の測定値、一般的にビットを使用する手段です。

情報理論の父、情報のクロード・エルウッドシャノン(クロード・エルウッドシャノン)の定義は次のように:

この式を説明する前に、次の例を見てみましょう。

例えば、ブラックボックス、ランダム変数リンゴ、オレンジを表す2個のリンゴ、オレンジ8我々は、ブラックボックスのリンゴを得る、オレンジ確率的プロセスとして、X = {X1、X2}が存在します。

私たちが来て何であるかを考え出すことを学ぶとき、私たちは情報を受け、この事の発生確率に関連するサイズ情報および情報は、ここで0.2 Appleはオレンジが0.8である、です。出来事の小さい確率が、それが生成する情報のより大きな量は、例えば、Iが得リンゴ情報よりもオレンジであると、大量の情報のうち学びました。

私たちは、関数定義情報を探すのであれば、この関数は次のような条件を満たすために:

フォームを減少させる確率が増加を満たすために。

情報の最小量が0であるので、関数の値は、負にすることはできません。

負の符号付き対数関数は、上記の要件に沿ったもので、明らかである、当然のことながら、この論文は、選択肢の説明している「通信のA数学的理論」(コミュニケーションの数学理論)で、シャノンこれらの要件を満たすだろう他の機能がなければなりませんその理由の対数関数:

効果とは:

メッセージの組の数が制限され、の可能性は、各メッセージに等しく選択される場合、メッセージ番号または任意の単調関数のメッセージ番号は、メッセージの選択されたセットから生成された時間情報として使用することができます測定します。最も自然な選択は、対数関数です。

対数関数より便利な理由について、論文3点を与えます:

  • 実際にはより有用。
    対数関数は、このような、リレーはリレーを倍増させることができます状態の数が増加します例えば、時間、帯域幅、の対数との間の関係の直線可能性のリレー番号の数、など、いくつかの非常に重要なエンジニアリングパラメータを可能にし、この場合1だけ結果の可能な状態の数2の対数を求めています。(LOG2 1、LOG2 2、LOG2倍加時間は、それが元の二乗近似(1,2,4,8、...)へのメッセージの数であってもよいし、その数が2倍に 、4、LOG2 8 .. 。)=(0,1,2,3、...)
  • クローサー措置に対する人間の本能に。
    比較の線形尺度は人間の直感です。例えば、二つのパンチカード情報の記憶容量が倍パンチカード、2つのチャネルは二回、1つのチャンネルでなければならない同一の情報伝送容量でなければならないと考えられています。
  • より適切な数学。
    可能性の数は、それが退屈不器用を再表示する必要があるかもしれないと述べた場合、多くの制限動作を容易に、対数表現します。

なぜ紙を説明する、それの2を底とした対数を選択するには、この次のとおりです。

一般的には、底面とは、情報に対応する単位で測定されているものが何であるかを選択することを意味します。ベース2を使用して英語、バイナリビットを使用することである:バイナリデジット(シャノンがJWテューキー提案を聞い、ビットワードから来た、バイナリ桁ビットと呼ばれます)。ベース10を使用すると、この時点では情報ユニットは、天然のユニットと呼ばれ、いくつかの出会い統合および分化を分析しながら、隆起Eの使用は時々有用であり得る、小数場所です。

個人的な理解が、これがあること、すべての後、ユニット間で変換することができますすることができます何の終わりですが、ストア情報、または使用ベースに進数を使用する場合は、計算を容易にするために、2がより便利であるということです。そのようなA開始メッセージ分類の例としては、{メッセージを読み出すことなく、タイムリーに処理する必要がメッセージを読む}メッセージの三種類、1000メッセージが穿設され、各カテゴリの発生確率をそれぞれ1 / 2,1 / 4,1 / 4。

今ビットによって分類を表現しようとする、それが直接の情報の各カテゴリのために計算することができ、各カテゴリは表現するために、少なくともいくつかのバイナリビットを必要とします。

リードメッセージは退屈:-log2(1/2)= 1、それは1ビットで表すことができます。

そう表すことができる2つの2進ビットを使用し、-log2(1/4)= 2:メッセージがタイムリーな治療のために必要

そう2つのバイナリビットが表すことができると共に、-log2(1/4)= 2:電子メールを読む必要がありません。

その後、結果がそうであるけれども、お聞きしたいことがありますが、それを理解するためにどのように?

理解が出現する確率も大きく、太陽などの情報の少ない量は、東明日に上昇し、直感的な情報より直感的な判断の量である西で明日太陽の上昇、です。

大きな確率変数を表示されているもののために感謝ストレージの観点からは、より少ないビットエンコーディングで、あなたはより大きなスペースを節約することができます。

情報を持って、我々はエントロピーが何であるかを見てください。

信息量是表达某个事件需要的二进制位数,比如“某个邮件属于需及时处理的邮件”就是一个事件,而所有可能产生的信息量的期望值被定义为信息熵。

根据概率和统计学中对期望值的定义:一个随机变量的期望值是变量的输出值乘以其机率的总和。可以得到信息熵的公式如下:

这里变量的输出值是某个分类对应的信息量,其中的log一般以2为底,变量的机率是某个分类出现的概率。

可以看出,某个数据集中包含的分类越多,信息熵就越大,而包含分类多,说明这个数据集越混乱,越不纯。

因此,在一些机器学习算法比如ID3决策树中就常用信息熵来量化数据集的纯度,以选择出更好的特征来划分数据,让划分出的数据子集越来越纯,最终就可以根据多数表决来决定叶子节点的分类,从而构建出完整的分类决策树。

ok,本篇就这么多内容啦~,感谢阅读O(∩_∩)O。

おすすめ

転載: www.cnblogs.com/anai/p/12160754.html