機械学習は、私たちが、関数の無限に小さな変更を処理し、その変化を計算するために計算を使用し、独自の数学的基礎を持って、我々は計算を処理するために、線形代数を使用し、我々はまた、確率論と統計モデリングの不確実性を使用しています。この1では、確率論は、学習の目的は、ビューの確率ポイントが理解できる、モデル、学習プロセスの結果を予測するための独自のポジションを持っています。
同時に、ビューの細かい点から、確率変数コンテンツの確率分布は、私たちが理解しなければならないものです。この記事では、著者はあなたが知る必要があるすべてのプロジェクト統計的分布を説明し、彼はまた、各ディストリビューションのコードの実装を提供します。
プロジェクトアドレスします。https://github.com/graykode/distribution-is-all-you-need
私たちは、全体的な確率分布を見てみましょうすると何があります。
非常に興味深いリンクされている各分布の図です。例えば、ベルヌーイ分布、それが数回繰り返される二項分布は、その後、マルチクラスに拡大した場合、多項分布になりました。ここで、コンジュゲート(コンジュゲート)は、互いに共役の確率分布を表す。なお、; 2つ以上を表すマルチクラス確率変数; n回は、我々はまた、事前分布P(X)を考慮表します。
事後分布p場合ベイズ理論の概念は、(θ| x)と事前分布p(θ)は、同じファミリーの確率分布である、事後分布プロファイルを参照することができる共役事前分布と呼ばれることも共役事前の尤度関数。
確率分布を研究するために、プロジェクトの作者たちは、パターン認識と機械学習の司教を参照してくださいすることを示唆しました。もちろん、あなたが優れており、「確率論と数理統計学」、上に行く準備ができている場合。
確率分布と特性
1.均一な(連続)
均一に分布したランダム変数閉区間[B]を参照し、各変数の発生確率は同一です。
2.ベルヌーイ分布(離散)
ベルヌーイ分布は、単一のバイナリランダム変数の分布である事前確率P(X)を、考慮されません。これは、単一のパラメータ[0、1]を制御することによりφ∈、Φは確率変数の確率が等しい与えます。我々は、ベルヌーイ分布の負の対数をとるの形態と一致して、バイナリ分類のための相互エントロピー関数を使用します。
3.二項分布(離散)
二項分布は、それが繰り返されるN個の独立したベルヌーイ試行を指し、ベルヌーイによって提案された概念です。各試験で2つだけの可能な結果、および2つの結果が起こるかを互いに反対があります。
4.Multi-ベルヌーイ分布(離散)
マルチベルヌーイ分布まだ可視プロファイル(カテゴリ分布)、そのカテゴリは、クロスエントロピー及びこの分布の負の対数の形は、形と一致して、2を超えます。
前記多項分布(離散)
カテゴリ多項分布は、分布(多項分布)特別な場合、二項分布とベルヌーイ分布の関係と分布との関係の範囲です。
6.Betaプロファイル(連続)
ベルヌーイ分布としてベータ分布(ベータ分布)は、連続的な確率(0,1)分布で定義された基を意味し、二項と共役事前分布密度分布関数です。ベータ分布は一様分布、すなわち、アルファ= 1、β= 1つの分布の特別な場合です。
7.ディリクレ分布(連続)
ディリクレ分布(ディリクレ分布)をサポート(支援)に正単体で配布(標準シンプレックス)セット高次元の連続確率本当のドメインのクラスである、ベータ分布は、より高い次元の推進します。ベイズ推論は、事前分布が適用ディリクレ分布多項式結合体として、機械学習におけるディリクレ混合モデルを構築するために使用されます。
8.Gammaプロファイル(連続)
ガンマ分布が統計的に共通の連続的な分布、指数分布であり、カイ二乗分布とアーラン分布は、その特殊なケースです。ガンマ(1)/ガンマ(1)+γ(B、1)の場合、ガンマ分布はベータ(B)分布と等価です。
9.指数分布(連続)
指数分布は、乗客として独立したランダムイベントは、間隔のコールセンターに空港の間隔を入力し、その上で間隔時間を示すために使用することができます。アルファが1に等しい場合、指数分布、ガンマ分布の特別な場合です。
10.ガウス分布(連続)
ガウスまたは正規分布は、それが広くモデルの機械学習全体で使用され、最も重要なものの一つです。例えば、初期化ガウス分布を再利用するために私たちの権利は、ガウス分布を持つ私たちの隠されたベクトルは、ように正規化されています。
正規分布の平均は、私たちの最も人気のあるディストリビューションで標準正規分布であり、0、1時間分散、あるとき。
11カイ二乗分布(連続)
自由コンプライアンス標準正規変数kのk個の独立度の二乗和がカイ二乗分布であるように簡単に説明すると、カイ二乗分布(カイ二乗)を理解することができます。カイ二乗分布は、確率分布は、仮説検定と信頼区間を計算するように、最も広く統計的推論に使用されるの一つであり、特別なガンマ分布です。
12.学生のt-分布
推定されたサンプルによればスチューデントのt-分布(スチューデントt分布)が正規分布と未知の母集団の分散を有し、平均値です。t分布は、t分布は、平均から離れてサンプリングする傾向であることを意味する、より長いテールを占める普通のように、対称的な逆釣鐘型の分布です。
コードは実装が配布されます
上記および地図作成分布の多様性を構築するnumpyの方法は、対応するコードリーダーが元のプロジェクトで見つけることができる提供します。ショーは、指数分布を以下のように構築、我々は直接確率密度関数を定義し、うまくそれをプリントアウトすることができます地図作成します。
import numpy as np
from matplotlib import pyplot as plt
def exponential(x, lamb):
y = lamb * np.exp(-lamb * x)
return x, y, np.mean(y), np.std(y)
for lamb in [0.5, 1, 1.5]:
x = np.arange(0, 20, 0.01, dtype=np.float)
x, y, u, s = exponential(x, lamb=lamb)
plt.plot(x, y, label=r'$mu=%.2f, sigma=%.2f,'
r' lambda=%d$' % (u, s, lamb))
plt.legend()
plt.savefig('graph/exponential.png')
plt.show()