情報エントロピーと情報差

情報の尺度[編集]

情報エントロピー[編集]

アメリカの数学者クロード・シャノンは「情報理論の父」として知られています。人々は通常、 1948 年10 月に「 Journal of Bell System Technology 」に掲載されたシャノンの論文「コミュニケーションの数学的理論」を現代の情報理論研究の始まりとみています。この記事は、ハリー・ナイキストその後のラルフ・ハートレーによって 1920 年代に発表された研究に一部基づいています。この記事で、シャノンは情報エントロピーの定義を次のように示しました。

 

�(�)=��[�(�)]=∑�∈��(�)log2⁡(1�(�)){\displaystyle H(X)=\mathbb {E} _{X}[I(x)]=\sum _{x\in {\mathcal {X}}}^{}p(x)\log _{ 2}\left({\frac {1}{p(x)}}\right)}

ここで、�� は有限イベント x の集合で{\数学 {X}}あり、 バツ�� は {\数学 {X}}�� 上で。情報エントロピーは、ランダム イベントの不確実性の尺度です

情報エントロピーは、物理学における熱力学的エントロピーと密接に関連しています。

�(�)=���(�){\displaystyle S(X)=k_{B}H(X)}

ここで、S(X) は熱力学エントロピー、H(X) は情報エントロピー、 k_{B}�� はボルツマン定数です。実際、この関係は一般化されたボルツマンのエントロピー式、または正準アンサンブルの熱力学エントロピー式でもあります。統計物理学におけるエントロピーに関するボルツマンギブスの研究が、情報理論のエントロピーに影響を与えたことがわかります

情報エントロピーは、ソースコーディング定理における圧縮率の下限です。エンコードに使用される情報量が情報エントロピーよりも少ない場合、情報の損失が発生するはずです。シャノンは、大数の法則漸近等分割に基づいて正準集合と正準シーケンスを定義しました正規セットは、正規シーケンスのコレクションです。n で定義される典型的な集合に属する独立かつ同一に分散された nバツ系列バツ約 1 であるため、必要なのは、典型的な集合に属するメモリのないバツnほぼ可逆圧縮を実現します。

例[編集]

サイコロが3面あり、その3面にそれぞれ1、2、3が書かれており{\表示スタイル 1,2,3}、�は出た数字バツで、それぞれの面が出る確率は

�(�=1)=1/5、�(�=2)=2/5、�(�=3)=2/5、{\displaystyle {\begin{aligned}\mathbb {P} (X=1)&=1/5,\\\mathbb {P} (X=2)&=2/5,\\\mathbb {P} (X=3)&=2/5,\end{整列}}}

しかし

�(�)=15log2⁡(5)+25log2⁡(52)+25log2⁡(52)≈1.522。{\displaystyle H(X)={\frac {1}{5}}\log _{2}(5)+{\frac {2}{5}}\log _{2}\left({\frac {5}{2}}\right)+{\frac {2}{5}}\log _{2}\left({\frac {5}{2}}\right)\約 1.522.}

結合エントロピーと条件付きエントロピー[編集]

結合エントロピーは、エントロピーの定義から始まり、結合分布のエントロピーを計算します。

�(�,�)=∑�∈�∑�∈��(�,�)log⁡(1�(�,�))。{\displaystyle H(X,Y)=\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}^{}p(x,y)\ log \left({\frac {1}{p(x,y)}}\right).}

条件付きエントロピー(条件付きエントロピー) は、その名前が示すとおり、条件付き確率 �(�|�) によって計算されますp(y|x)

�(�|�)=∑�∈�∑�∈��(�,�)log⁡(1�(�|�))。{\displaystyle H(Y|X)=\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}^{}p(x,y)\ log \left({\frac {1}{p(y|x)}}\right).}

ベイズの定理によれば、�(�,�)=�(�|�)�(�) があり{\displaystyle p(x,y)=p(y|x)p(x)}、結合エントロピーの定義に代入すると、条件付きエントロピーを分離できるため、結合エントロピーと条件付きエントロピーの関係は次のようになります。得られたもの:

�(�,�)=�(�)+�(�|�)=�(�)+�(�|�)=�(�,�)。{\displaystyle H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)=H(Y,X).}

チェーンルール[編集]

結合エントロピーと条件付きエントロピーの関係は再度拡張でき、�� 個の確率変数 ��,��=1,2,..., n�� があり{\displaystyle X_{i},i=1,2,...,n}、条件付きエントロピーは次のように繰り返し分離できると仮定します。 :

�(�1,�2,...,�)=�(�1)+�(�2,...,��|�1)=�(�1)+�(�2|� 1)+�(�3,...,�|�1,�2)=�(�1)+∑�=2�(��|�1,...,��−1) 。{\displaystyle {\begin{aligned}H(X_{1},X_{2},...,X_{n})&=H(X_{1})+H(X_{2},... ,X_{n}|X_{1})\\&=H(X_{1})+H(X_{2}|X_{1})+H(X_{3},...,X_{n }|X_{1},X_{2})\\&=H(X_{1})+\sum _{i=2}^{n}H(X_{i}|X_{1},.. .,X_{i-1})\end{整列}}.}

その直観的な意味は次のとおりです。一連の数値 {�1,�2,...,��} を受け取り{\displaystyle \{X_{1},X_{2},...,X_{n}\}}、最初に �1 を受け取りX_1、次に �2X_2を受け取る、というようになります。その後、X_1�1 を受信した後の総メッセージ量は �(�1) となり{\displaystyle H(X_{1})}X_2�2 を受信した後の総メッセージ量は�(�1)+�(�2|�1) となり{\displaystyle H(X_{1})+H(X_{2}|X_{1})}、�� を受信したX_{n}後総メッセージ量はは �(�1,...,��) となるはずな{\displaystyle H(X_{1},...,X_{n})}ので、この受信プロセスによって連鎖ルールが得られます。

相互情報[編集]

相互情報量は、2 セットのイベント間の相関関係を指す、もう 1 つの有用な情報尺度です。2 つのイベント バツ�� とY�� の相互情報量は次のように定義されます。

�(�;�)=�(�)−�(�|�)=�(�)+�(�)−�(�,�)=�(�)−�(�|�)=�( �;�)。{\displaystyle I(X;Y)=H(X)-H(X|​​Y)=H(X)+H(Y)-H(X,Y)=H(Y)-H(Y|X) =I(Y;X)。}

その意味はYバツ��にどれだけの情報が含まれているかということです。��を取得するY前は、 バツ��に関する不確実性は��(��)であり{\displaystyle H(X)}、��を取得したY後は、不確実性は��(��|��)になります{\displaystyle H(X|Y)}したがって、一度 � が得られるとY�から�までの情報量である{\displaystyle H(X)-H(X|​​Y)} �(�)−�(�|�) の不確実性が解消されます。Yバツ

�, � が独立しX、Yている、�(�,�)=�(�)+�(�) となり{\displaystyle H(X,Y)=H(X)+H(Y)}、�(�;�)=0 となりますI(X;Y)=0

そして �(�|�)≤�(�) であるため{\displaystyle H(X|Y)\leq H(X)}

�(�;�)≤min(�(�),�(�),{\displaystyle I(X;Y)\leq \min(H(X),H(Y)),}

このうち、等号の成立条件は�=�(�) であり{\displaystyle Y=g(X)}g� は全単射関数です。

相互情報量は、 G 検定およびピアソン カイ二乗検定と密接に関連しています。

アプリケーション[編集]

情報理論は以下の分野で広く使用されています。

おすすめ

転載: blog.csdn.net/sinat_37574187/article/details/132206410