情報理論と数理統計学 - 機械学習の基礎

まず、情報理論

情報理論は、客観的世界の不確実性を扱います。
コミュニケーションの基本的な問題は今、そのメッセージ内の別の選択した点の約または正確に二重です。
生活の中で、情報担体はメッセージです。直感的な感覚にもたらされる情報の異なるメッセージは、そのような情報の「オルセーシュワルツェネッガーボディービルチャンピオンがGET」はるかに大きいよりも「馬はオルセーを得るチャンピオンのボディービル」と、まったく同じではありません。
前者は、我々が慣れている小さな確率イベントですので。大きな情報量も大きく設けられてメッセージの不確実性。

エントロピ

内部混乱のシステム

ソース

メッセージ(サイン)、及び連続したメッセージのメッセージシーケンスのソースを生成します。

情報

どのくらいの情報の測度
情報理論において、イベントAが発生する確率場合\(P-(A)は\) このイベントからの情報の量は次のように定義されている
(H(A)= - \
log_2p(A)\) たとえば、次の場合\(P(\)の場合)、1/1000 10に関する情報を取得する\(pは()\) 1 1/2について得られた情報の量であります

エントロピ

エントロピー源から成る確率空間で発行することができる各ソースシンボルからの情報の統計的平均値です。
単一のイベントからのソース情報のエントロピーは、各シンボルを計算含むことができる
かの離散的な情報源のX含むNシンボル、各記号は\(a_iを\)の値を\(P(a_iを)\) ソースX-エントロピー
\(H(X)= - \ sum_ {i = 1} ^ NP(a_iを)log_2p(a_iを)\)

条件付きエントロピー

条件付き確率論の概念では、条件付き確率はあなたが条件付きエントロピーを得ることができ、情報理論に拡張されます。
2つのチャネルのソースとの間の相関場合、Xのソース既知の条件下で、他のソースは、エントロピーを減少します。
条件付きエントロピー\(H(Y | X)\)確率変数を表すが知られている(X- \)\別の確率変数の条件下\(Y \)不確実性が与えられる(\ X- \)に記載)、Y(\ \条件付き確率算出エントロピー再び\(X- \)数学的期待値を見つけます

$ H(Y | X)= \ sum_ {i = 1} ^ NP(X_I)H(Y | X = X_I)$

\(= - \ sum_ {i = 1} ^ NP(X_I)\ sum_ {J = 1} ^ MP(Y_I | X_I)log_2p(Y_I | X_I)\)

\(= - \ sum_ {i = 1} ^ N \ sum_ {J = 1} ^ NP(X_I、Y_I)log_2p(y_j | X_I)\)

よれば、条件エントロピ可変することを意味する\(X- \)ツリー内の変数Yの値は、各個々のサブアウトタイプ、各クラスのエントロピについて計算エントロピー(X- \ \)の数学的期待値を計算する分散。

情報利得

機械学習では、情報利得も相互情報として知られ、多くの場合、特徴選択の分類では、情報の量をもたらすために機能を説明します

信息增益=信息熵-条件熵

が確率変数であると仮定すると、\(X- \) および他の確率変数\(Y- \)は、その情報がゲインであること

\(I(X; Y)= H(Y)-H(Y | X)\)

YのXは、情報利得をもたらすように理解することができます。
与えられた訓練データセットの場合は\(Y- \)、\ (H(Y-)が\)トレーニングセットの分類不確実性のいずれかの機能を与えられていないときを示す
\(H(Y | X) \) 意味特性の使用\(X \)トレーニングセットのための\(Y \)分類不確実性。
情報利得特性を表し\(X \)トレーニングセットをもたらすために\(Y \)分類の不確実性還元の程度、すなわち前記\(X- \)トレーニングセットのための\(Y \)微分。

情報利得比

情報ゲイン値は、データセットの情報エントロピーに大きく依存\(H(Y-)\) したがって、絶対的な意味を持っていません。この問題を解決するために、研究者が提案した情報利得比

\(G(X、Y)= I(X; Y)/ H(Y)\)

相対エントロピー

2つの異なる確率分布の間の差を説明するために、相対エントロピーKLダイバージェンスとして知られています。

\(D_ {KL}(P || Q)= \ sum_ {I = 1} ^ NP(X_I)log_2 \ FRAC {P(X_I)} {Q(X_I)} \)

基準とした相対エントロピー測定するために使用される\(P \)符号化されたから符号化\(Q \)サンプルを平均化に必要なビットの追加の数を。

最大エントロピー原理

知識の一部のみが未知の分布をマスターする場合は、この知識ではなく、最大エントロピー確率分布に合わせて選択する必要があります。
最大エントロピー原理は、未知の配布のための最も公正なオプションの一つに代わって、最終的な分布への唯一の方法は、以来、彼らのほとんどが不明またはほとんどランダムな分布である必要があり、知られている前提を満たすための知識の本質です。

情報理論は、単一のソースで情報通信の解釈を行うために、情報伝達やその他の問題の数と効率性を「情報エントロピー」の概念を使用して、不確実性と情報世界とのスケーラビリティがAを建てブリッジ

第二に、数理統計学

サンプルに基づいて数理統計(数理統計学)の使命は、全体の自然推論順番に観察することができる
推論ツール统计量、統計があり样本的函数随机变量
研究の目的の観察や実験的にランダムな現象を取得したデータに基づいて研究する数理統計学、および法律は、合理的な見積り及び判断を行います。
統計理論のアルゴリズムの助けを機械学習に基づいており、データの価値を反映することができるように、データマイニング、唯一の合理的な説明の結果を説明します。

汎化は:モデルに属していないと能力は、サンプルの新しいセットをテストするために使用されます。強い汎化能力、より良い学習者

確率論の違い

ポイントを見つけるために、確率論では、数学的な統計は全体的にローカルプッシュです

  • 確率分布が既知の分布に基づく確率変数の特性や法律を分析する確率変数の役割を、知られていることを前提に、
  • STATISTICS被験者が不明分布確率変数であり、研究は独立ランダム変数の観察は、得られた観測の元の分布を推定するために、繰り返されます。
    数理統計は、確率論の逆として見ることができ、より理論的な観点からの研究の方法論に傾いて、その後、適用する方法を探ります

例えば、宝くじを購入します

  • 溶液は、既知の確率論に基づいて摇奖规律勝利ノートナンバーを決定する可能性
  • 解決するための数理統計が繰り返し勝っている/前に投機の精度の特定に従って記録非当選番号を摇奖的规律、それは役に立たないかもしれないが。

統計的推論の方法:パラメータ推定

採取ランダムサンプルの全体的な分布の未知パラメータを推定するパラメータ推定点と区間推定を含む
*点推定(点推定)
具体的な方法は、モバイルコンポーネント(モバイルコンポーネントのメソッド)と最尤推定法(最尤推定を含みます)
両方の方法は、母集団パラメータ推論のアイデアを表現するが、同じパラメータについて、異なる推定方法によって得られた推定量は、それは、一貫性を評価通常公平性、有効可能性が異なることですされている
*インターバル(区間推定)を推定
区間推定誤差のさらなるマージンを提供するために、対応する範囲とに基づいて推定された点を

統計的推論の方法:仮説検定

撮影した無作為標本の全体的な判断を受け入れるか拒否するために、

検出の役割を想定すると、テストセットのパフォーマンスを学習におけるその一般化の強さに応じて推定される、と結論の正確度は、異なる学習フィルタの性能を比較するために一般化することができるかを決定します。

構成エラーは三つの部分に一般化することができます。

  • 偏り(バイアス)
    の予測と実際の結果アルゴリズムとの偏差の程度、私のモデルunderfittingの肖像
  • 分散(分散)
    外乱がオーバーフィッティングモデルの肖像の性能特性データを表すと予想されます
  • 雑音(ノイズ)は
    、タスク自体の難しさの肖像画のタスクを学習最小汎化誤差に到達するために電流を表します

おすすめ

転載: www.cnblogs.com/chenqionghe/p/12575525.html