情報の尺度[編集]
情報エントロピー[編集]
アメリカの数学者クロード・シャノンは「情報理論の父」として知られています。人々は通常、 1948 年10 月に「 Journal of Bell System Technology 」に掲載されたシャノンの論文「コミュニケーションの数学的理論」を現代の情報理論研究の始まりとみています。この記事は、ハリー・ナイキストとその後のラルフ・ハートレーによって 1920 年代に発表された研究に一部基づいています。この記事で、シャノンは情報エントロピーの定義を次のように示しました。
�(�)=��[�(�)]=∑�∈��(�)log2(1�(�))
ここで、�� は有限イベント x の集合であり、 �� は �� 上で。情報エントロピーは、ランダム イベントの不確実性の尺度です。
情報エントロピーは、物理学における熱力学的エントロピーと密接に関連しています。
�(�)=���(�)
ここで、S(X) は熱力学エントロピー、H(X) は情報エントロピー、 �� はボルツマン定数です。実際、この関係は一般化されたボルツマンのエントロピー式、または正準アンサンブルの熱力学エントロピー式でもあります。統計物理学におけるエントロピーに関するボルツマンとギブスの研究が、情報理論のエントロピーに影響を与えたことがわかります。
情報エントロピーは、ソースコーディング定理における圧縮率の下限です。エンコードに使用される情報量が情報エントロピーよりも少ない場合、情報の損失が発生するはずです。シャノンは、大数の法則と漸近等分割に基づいて正準集合と正準シーケンスを定義しました。正規セットは、正規シーケンスのコレクションです。n で定義される典型的な集合に属する独立かつ同一に分散された n系列約 1 であるため、必要なのは、典型的な集合に属するメモリのないnほぼ可逆圧縮を実現します。
例[編集]
サイコロが3面あり、その3面にそれぞれ1、2、3が書かれており、�は出た数字で、それぞれの面が出る確率は
�(�=1)=1/5、�(�=2)=2/5、�(�=3)=2/5、
しかし
�(�)=15log2(5)+25log2(52)+25log2(52)≈1.522。
結合エントロピーと条件付きエントロピー[編集]
結合エントロピーは、エントロピーの定義から始まり、結合分布のエントロピーを計算します。
�(�,�)=∑�∈�∑�∈��(�,�)log(1�(�,�))。
条件付きエントロピー(条件付きエントロピー) は、その名前が示すとおり、条件付き確率 �(�|�) によって計算されます。
�(�|�)=∑�∈�∑�∈��(�,�)log(1�(�|�))。
ベイズの定理によれば、�(�,�)=�(�|�)�(�) があり、結合エントロピーの定義に代入すると、条件付きエントロピーを分離できるため、結合エントロピーと条件付きエントロピーの関係は次のようになります。得られたもの:
�(�,�)=�(�)+�(�|�)=�(�)+�(�|�)=�(�,�)。
チェーンルール[編集]
結合エントロピーと条件付きエントロピーの関係は再度拡張でき、�� 個の確率変数 ��,��=1,2,..., �� があり、条件付きエントロピーは次のように繰り返し分離できると仮定します。 :
�(�1,�2,...,�)=�(�1)+�(�2,...,��|�1)=�(�1)+�(�2|� 1)+�(�3,...,�|�1,�2)=�(�1)+∑�=2�(��|�1,...,��−1) 。
その直観的な意味は次のとおりです。一連の数値 {�1,�2,...,��} を受け取り、最初に �1 を受け取り、次に �2を受け取る、というようになります。その後、�1 を受信した後の総メッセージ量は �(�1) となり、�2 を受信した後の総メッセージ量は�(�1)+�(�2|�1) となり、�� を受信した後総メッセージ量はは �(�1,...,��) となるはずなので、この受信プロセスによって連鎖ルールが得られます。
相互情報[編集]
相互情報量は、2 セットのイベント間の相関関係を指す、もう 1 つの有用な情報尺度です。2 つのイベント �� と�� の相互情報量は次のように定義されます。
�(�;�)=�(�)−�(�|�)=�(�)+�(�)−�(�,�)=�(�)−�(�|�)=�( �;�)。
その意味は、��にどれだけの情報が含まれているかということです。��を取得する前は、 ��に関する不確実性は��(��)であり、��を取得した後は、不確実性は��(��|��)になります。したがって、一度 � が得られると、�から�までの情報量である �(�)−�(�|�) の不確実性が解消されます。
�, � が独立している、�(�,�)=�(�)+�(�) となり、�(�;�)=0 となります。
そして �(�|�)≤�(�) であるため、
�(�;�)≤min(�(�),�(�),
このうち、等号の成立条件は�=�(�) であり、 � は全単射関数です。
相互情報量は、 G 検定およびピアソン カイ二乗検定と密接に関連しています。
アプリケーション[編集]
情報理論は以下の分野で広く使用されています。