常见的机器学习与数据挖掘知识点之常见分布

版权声明:未经许可, 不能转载 https://blog.csdn.net/heyongluoyao8/article/details/47982443

常见的机器学习与数据挖掘知识点之常见分布

Common Distribution(常见分布):

Discrete Distribution(离散型分布):

  • 0-1 Distribution(0-1分布)
    定义:若随机变量 X 只取 0 1 两个值,且其分布律为
    P{X=k}=pk(1p)1k,k=0,1

    其中 X 服从参数为p的 (01) 分布,记作 X(01) . 如抛掷硬币一次便服从两点分布.
      两点分布的期望与方差分别为: p,1p .
  • Geometric Distribution(几何分布)
    定义:若随机变量 X 的可能取值为 1,2,3,... 且它的分布律为
    P{X=k}=(1p)k1p=qk1p,k=1,2,3,...

    则称随机变量 X 服从参数p的几何分布,记作 XG(p) .
      几何分布具有无记忆性,即:
    P{X>m+n|X>m}=P{X>n}

    指几何分布对过去的m次失败的信息在后面的计算中被遗忘了.
      几何分布对应于: X 为独立重复的贝努利试验这种,“首次成功”时的试验次数.
      几何分布的期望与方差分别为: 1p,1pp2 .
  • Hypergeometric Distribution(超几何分布)
    定义:若随机变量 X 的可能取值为 0,1,2,....,n ,而且其分布律为
    P{X=m}=CmMCnmNMCnN

    其中 n,M,N 都是正整数,且 nN,MN . 上式中当 m>M nm>NM 时,显然有 PX=m=0 ,称这种分布为超几何分布,记作 XH(n,M,N) .
      超几何分布对应与不返回抽样模型: N 个产品中有 M 个不合格产品,从中抽取 n 个,那么不合格的产品个数为 X .
      超几何分布的期望与方差分别为: nMN,nMNNMNNnN1 .
  • Bernoulli Distribution/Binomial Distribution(贝努利分布/二项分布)
    定义:设随机变量 X 的可能取值为 0,1,2,...,n ,其它的分布律为
    P{X=k}=Cknpk(1p)nk

    则称随机变量 X 服从参数为 n,p 的二项分布,记作 XB(n,p) ,它是 n 重独立贝努利试验分布成功 k 次,当 n=1 时,其退化成 01 分布.
      设随机变量 XH(n,M,N) ,则当 N 时, X 近似地服从二项分布 B(n,p) ,即下面的近似等式成立.
      二项分布的期望与方差分别为: np,np(1p) .
  • Negative Binomial Distribution(负二项分布,又称Pascal 帕斯卡分布)
    定义:若随机变量 X 的可能取值为 r,r+1,... ,而且其分布律为
    P{X=k}=Cr1k1(1p)krpr,k=r,r+1,...

    其中, r,p 都是常数,那么称随机变量 X 服从参数 r,p 的负二项分布,记作 XNB(r,p) .
      负二项分布是:X为独立重复的贝努利试验中,“第 r 次成功“时的试验次数.
      负二项分布的期望与方差分别为: rp,r(1p)p2 .
      二项随机变量时独立 01 随机变量之和.
      在n重贝努利试验可看作由 n 个相同的,独立进行的贝努利试验组成,若将第 i 个贝努利试验中成功的次数记为 XiB(1,p),i=1,...,n n 重贝努利试验成功的总次数 X=X1+X2+...+Xn ,它服从 B(n,p) .
      负二项随机变量时独立几何随机变量之和.
      做一系列的贝努利试验,如果将首个成功出现的试验次数记为 X1 ,第二个成功出现时的试验次数(从第一次成功之后算起)记为 X2 ,……,第 r 个成功出现时的试验次数记为 Xr ,则 Xi 独立同分布,且 XiG(p) . 此时有 X=X1+X2+...+XnNB(r,p) .
  • Multinomial Distribution(多项分布)
    定义::若 m 维随机变量 (X1,X2,...,Xm) 可能取值为 (k1,K2,...,Km) ,而且其分布律为
    P{X1=k1,X2=k2,...,Xm=km}=n!k1!k2!...km!pk11pk22...pkmm

    其中, mi=1ki=n pi >0为试验结果是 xi 的概率, ki 表示试验结果是 xi 的次数. 那么称随机变量 (X1,X2,...,Xm) 服从多项分布,记作 (X1,X2,...,Xm)M(n,p1,p2,...,pm) .
      通俗地说,假设一次随机试验取值范围可能为 x1,x2,...xm ,每个出现的概率依次为 p1,p2,...,pm ,现进行独立重复 n 次试验,分别将它们的出现次数记为随机变量 X1,X2,...,Xm ,那么该试验就是一个多项分布试验.
      多项分布的所有期望与协方差矩阵分别为: E=(np1,np2,...,npm),COVm×m=(cij),cii=npiqi,cij=npipj(ij) .
  • Poisson Distribution (泊松分布)
    定义:若随机变量 X 的可能取值为 0,1,2,... ,其分布律为
    P{X=k}=λkk!eλ,k=0,1,2,...;λ>0

    则称随机变量 X 服从参数为 λ 的泊松分布,记作 XP(λ) .
      泊松定理:设随机变量 XnB(n,pn),n=1,2,3,...;pn 是与 n 无关的数 ) . 又设 npn=λ>0,n=1,2,... 是常数,则有
    limnP{Xn=k}=λkk!eλ

      当 npn=λ (常数)意味着当 n 很大时, pn 必定很小. 故当二项分布的 n 很大, p 很小时,取 λ=np ,必有
    P{X=k}=Cknpk(1p)nkλkk!eλ

    在实际计算过程中,一般当 n10,p0.1 时可用 λkk!eλ 作为 Cknpk(1p)nk 的近似值.
      泊松分布的期望与方差分别为: λ,λ .

Continuous Distribution (连续型分布):

  • Uniform Distribution(均匀分布)
    定义:设随机变量 X 的的概率密度为:
    f(x)=1ba,axb,ab0,others

    则称随机变量 X 在区间 [a,b] 上服从均匀分布,记作 XU[a,b] .
      均匀分布的分布函数为:
    F(x)=P{Xx}=0,xaxaba,axb,1,xb

      如果随机变量 XU[a,b] ,那么落在 [a,b] 中任何子区间 [c,d](acdb) 内的概率为:
    P{cXd}=dc1badx=dcba

    这说明随机变量 X 落在子区间上的概率与子区间的长度成正比,而与该子区间的位置无关,即它落在 [a,b] 中任意一段相等长度的子区间内的可能性相同.
      均匀分布的期望与方差分别为: a+b2,(ba)212 .
      在实际中,服从均匀分布的例子很多,如:
    • 乘客候车时间服从均匀分布
    • 电台每隔20分钟发出一个信号,我们随手打开收音机,那么等待时间 t[0,20]
    • …..
  • Exponential Distribution(指数分布)
    定义:若随机变量 X 的的概率密度为:
    f(x)={λeλx,x>00,x0]

    其中 λ 是正常数,则称随机变量 X 服从参数为 λ 的指数分布,记作 XE(λ) .
    指数分布的分布函数为:
    F(x)={1eλx,x>00,x0]

      实际使用中,常将指数分布作为各种寿命分布的近似,如动物的寿命,电子电气元件的寿命,随机服务系统中的服务时间等.
      指数分布具有无记忆性.
      指数分布的期望与方差分别为: 1λ,1λ2 .
  • Normal Distribution/Gaussian Distribution(正态分布/高斯分布)
    定义:若随机变量 X 的概率密度为
    f(x)=1σ2πe(xμ)22σ2,x(,+)

    其中 μ,σ 均为常数,分别为其的期望与方差,且 σ>0 ,则称随机变量 X 服从参数为 μ,σ 的正态分布,也称随机变量 X 为正态变量,记作 XN(μ,σ2) .
      正态分布的分布函数为:
    F(x)=1σ2πxe(tμ)22σ2dt,x(,+)

      特别地,当 μ=0,σ=1 时的正态分布叫做标准正态分布,记作 XN(0,1) ,它的概率密度使用 ϕ(x) 表示,为:
    ϕ(x)=12πex22,x(,+)

    其分布函数使用 Φ(x) 表示,为:
    Φ(x)=12πxet22dt,x(,+)

    这样就有:
    Φ(x)=1Φ(x)

    并且,正态分布 N(μ,σ2) 的分布函数与标准正态分布 N(0,1) 的分布函数 Φ(x) 有:
    F(x)=Φ(xμσ)

      正态分布的期望与方差分别为: μ,σ2 .
  • Lognormal Distribution(对数正态分布)
    定义:若随机变量 X 的对数服从正态分布,那么该随机变量服从对数正态分布,其概率密度为
    f(x)=1σx2πe(lnxμ)22σ2,x>0

    其中 μ,σ 均为常数,且 σ>0 ,则称随机变量 X 服从参数为 μ,σ 的对数正态分布,也称随机变量 X 为对数正态变量,记作 XLN(μ,σ2) ,注意: μ,σ 不是它的期望与方差.
      对数正态分布的分布函数为:
    F(x)=x0+f(t)dt=Φ(lnxμσ)

      对数正态分布的期望与方差分别为: eμ+σ22,e2μ+σ2eσ21 .
  • Gamma Distribution(伽马分布)
    先导知识:

    • 阶乘:n!=n(n-1)(n-2)…1
    • Gamma(伽马)函数:Gamma函数是阶乘的在实数域与复数域上的拓展,记为 Γ(x) .

      • 在实数域上伽马函数定义为:
        Γ(x)=+0tx1etdt
      • 在复数域(其中Re(z)>0,即实数部分大于0)上伽马函数定义为:
        Γ(z)=+0tz1etdt

      通过分部积分,可以得到:

      Γ(x+1)=xΓ(x)

      对于正整数 n ,有:
      Γ(n)=+0tnetdt=(n1)!

      那么问题来了:

      • 这个如此奇怪的函数是如何发现的呢?
          这就与一些数学大豪有关了,比如哥德巴赫、贝努利、欧拉、高斯等,详细参见神奇的gamma函数.
      • 为何 Γ(n)n! 而是 Γ(n)(n1)! ?
          欧拉早期的Gamma函数便是定义为 Γ(n)n! ,后来对其进行了修正为 Γ(n)(n1)! (具体原因不得而知),可能欧拉研究了
        B(m,n)=10xm1(1x)n1dx

        这个函数便是Beta函数,如果 Γ(n)(n1)! ,那么有
        B(m,n)=Γ(m)Γ(n)Γ(m+n)

        该函数是具有非常漂亮的对称形式. 如果 Γ(n)n! ,那么令
        E(m,n)=10xm(1x)ndx

        则有
        E(m,n)=Γ(m)Γ(n)Γ(m+n+1)

        这个形式显然不如 B(m,n) 那么优美,而数学家总是很在乎数学公式的美感的.
        定义:若随机变量 X 的概率密度为
        f(x)=1βαΓ(α)xα1exβ,x>0

        其中, α 形状参数(shape parameter), β 尺度参数(scale parameter)均为常数,则称随机变量 X 服从参数为 α,β 的伽马分布,记作 XGa(α,β) .
          Gamma分布函数为:
        F(x)=x0f(u)du=γ(α,xβ)Γ(α)

        其中
        γ(α,xβ)=xβ0tα1et

          若 α 是正整数,上式是一个Erlang分布:
        F(x)=1i=0α1(βx)ii!eβx=eβxi=α(βx)ii!

          Gamma分布的期望为 αβ ,方差为 αβ2 . Gamma分布即为:随机变量 X 为等到第 α 件事发生所需等待时间.
  • Beta Distribution(Beta分布)
    定义:若随机变量 X 的概率密度为
    f(x)=1B(a,b)xa1(1x)b1,0<x<1

    其中, a>0,b>0 均为常数, B(a,b)=Γa+bΓ(a)Γ(b) ,那么随机变量 X 服从参数为 a,b 的贝塔分布,记为 XB(a,b) .
      贝塔分布的分布函数为:
    F(x)=x0f(t)dt

      Beta分布的期望与方差分别为: αα+β,αβα+αβ2+β+1 .
  • Dirichlet Distribution(狄利克雷分布)
    定义:若随机变量 X 的概率密度为
    f(x)=Γ(α0)Γ(α1)...Γ(αK)k=1Kμαk1k

    其中, μ⃗ =(μ1,...,μK),α⃗ =(α0,...,αK) 中的每一个分量为均常数,并且 kμk=1,α0=Kk=1αk ,那么随机变量 X 服从参数为 μ⃗ ,α⃗  的狄利克雷分布,记为 XDir(μ⃗ ,α⃗ ) .
  • Rayleigh Distribution(瑞利分布)
    定义:若随机变量 X 的概率密度为
    f(x)=xσ2ex22σ2,x0

    其中, σ>0 为常数,那么随机变量 X 服从参数为 σ 的瑞利分布,记为 XR(σ) .
      瑞利分布的分布函数为:
    F(x)=x0f(t)dt

      瑞利分布的期望与方差分别为: π2σ,4π2σ2
  • Cauchy Distribution(柯西分布)
    定义:若随机变量 X 的概率密度为
    f(x)=1πγ[1+(xx0)2γ],x(,+)

    其中, x0,γ(γ>0) 尺度参数均为常数,那么随机变量 X 服从参数为 x0,γ 的柯西分布,记为 XC(x0,γ) .
      柯西分布的分布函数为:
    F(x)=xf(t)dt=πarctan(xx0γ)+12,x(,+)

      柯西分布的期望与方差均不存在.
  • Weibull Distribution(韦伯分布)
      韦伯分布的期望与方差分别为:
    定义:若随机变量 X 的概率密度为
    f(x)=βη(xη)β1e(xη)β,x0

    其中, η>0,β>0 均为常数,那么随机变量 X 服从参数为 η,β 的韦伯分布,记为 XW(η,β) .
      韦伯分布的分布函数为:
    F(x)=x0f(t)dt=1e(xη)β

      韦伯分布的期望与方差分别为: ηΣ(1β+1),η2(Γ(2β+1)Γ(1β+1)) .
      它的累积分布函数是扩展的指数分布函数,而且,Weibull distribution与很多分布都有关系。如,当 β=1 ,它是指数分布; β=2 时,是Rayleigh Distribution(瑞利分布).
  • Laplacian Distribution(拉普拉斯分布)
    定义:若随机变量 X 的概率密度为
    f(x)=12be|xμ|b

    其中, μ,b(b>0) 均为常数,那么随机变量 X 服从参数为 μ,b 的拉普拉斯分布,记为 XL(μ,b) .
      概率密度函数如下图所示:
    这里写图片描述
      拉普拉斯分布的分布函数为:
    F(x)=xf(t)dt12[1+sgn(xu)e|xμ|b]

      拉普拉斯分布的期望与方差分别为: μ,2b2 .

猜你喜欢

转载自blog.csdn.net/heyongluoyao8/article/details/47982443