统计模式识别学习笔记(四)

密度估计的参数法

一、前言回顾

在上一节中,我们借用了自动控制原理中稳定裕度的概念对最小错误贝叶斯决策最小风险贝叶斯决策进行了深入解读。并讨论了当类概率密度函数未知时,可以采用简单的模型来构造函数。最后,着重笔墨讲了高斯分类器(二项判别规则),并提到当协方差矩阵奇异时,高斯分类器就会出现问题。

设来自 ϖ j \varpi_j ϖj 类的数据向量采样于均值为 μ j \mu_j μj ,协方差矩阵为 Σ j \Sigma_j Σj 的正态分布,则判别函数为:
g j ( x ) = l o g ( p ( ϖ j ) ) − 1 2 l o g ( ∣ Σ j ∣ ) − 1 2 ( x − μ j ) T Σ j − 1 ( x − μ j ) g_j(x)=log(p(\varpi_j))-\frac{1}{2}log(|\Sigma_j|)-\frac{1}{2}(x-\mu_j)^T\Sigma_j^{-1}(x-\mu_j) gj(x)=log(p(ϖj))21log(Σj)21(xμj)TΣj1(xμj)

Σ j \Sigma_j Σj 奇异,则矩阵无法求逆,且因奇异矩阵的行列式为零也将无法计算判别规则中的对数运算。接下来介绍几种避免奇异协方差矩阵的方法。

二、处理高斯分类器的奇异问题

  1. 朴素贝叶斯

    避免奇异协方差矩阵的最简单方法是使用对角协方差矩阵,即将 Σ ^ j \hat{\Sigma}_j Σ^j 的所有非对角元素置为零。因此,形成数据向量的各特征在所属类上是相互独立的,可以将类概率条件密度函数写成:

    p ( x ∣ ϖ j ) = Π l = 1 d N ( x l ; μ ^ j l , σ ^ j , l 2 ) p(x|\varpi_j)=\Pi_{l=1}^dN(x_l;\hat{\mu}_{jl},\hat{\sigma}_{j,l}^2) p(xϖj)=Πl=1dN(xl;μ^jl,σ^j,l2)

    其中, μ ^ j l \hat{\mu}_{jl} μ^jl μ ^ j \hat{\mu}_j μ^j 的第 l l l 个分量,即 ϖ j \varpi_j ϖj 类的样本均值的第 l l l 个分量, σ ^ j , l 2 \hat{\sigma}_{j,l}^2 σ^j,l2 是矩阵 Σ ^ j \hat{\Sigma}_j Σ^j 的第 l l l 个对角元素,即 ϖ j \varpi_j ϖj 类的样本方差的第 l l l 个分量:

    σ ^ j , l 2 = 1 n − 1 Σ i = 1 n ( x i j − μ ^ j l ) 2 \hat{\sigma}_{j,l}^2=\frac{1}{n-1}\Sigma_{i=1}^n(x_{ij}-\hat{\mu}_{jl})^2 σ^j,l2=n11Σi=1n(xijμ^jl)2

    N ( x , μ , σ ) N(x,\mu,\sigma) N(x,μ,σ) 是遵循正态分布的单变量概率密度函数,均值为 μ \mu μ ,方差为 σ 2 \sigma^2 σ2 。判别规则为:若对所有的 j ≠ i j\ne i j=i ,均有 g i > g j g_i>g_j gi>gj ,则将 x x x 归入 ϖ i \varpi_i ϖi 类,其中:

    g j ( x ) = l o g ( p ( ϖ j ) ) − Σ l = 1 d l o g ( σ ^ j , l ) − 1 2 Σ l = 1 d ( x l − μ ^ j l ) 2 σ ^ j , l 2 g_j(x)=log(p(\varpi_j))-\Sigma_{l=1}^dlog(\hat{\sigma}_{j,l})-\frac{1}{2}\Sigma_{l=1}^d\frac{(x_l-\hat{\mu}_{jl})^2}{\hat{\sigma}_{j,l}^2} gj(x)=log(p(ϖj))Σl=1dlog(σ^j,l)21Σl=1dσ^j,l2(xlμ^jl)2

所以,当对角线型协方差矩阵下的高斯分类器将每一个类条件概率密度分量模拟成一个独立的单变量正态分布时,就能够将广义的贝叶斯分类器看成给定分量的任何单变量分布。

  1. 投影到子空间

    另一种方法是把数据投影到子空间,这时的 Σ ^ j \hat{\Sigma}_j Σ^j 是非奇异的,可能会使用主成分分析,然后在降维空间上使用高斯分类器。

  2. 线性判别函数

    *前面说:设来自 ϖ j \varpi_j ϖj 类的数据向量采样于均值为 μ j \mu_j μj ,协方差矩阵为 Σ j \Sigma_j Σj 的正态分布。*即使,数据取自不同协方差矩阵的多元正态分布,抽样的多变性也可能意味着假设数据来自等协方差矩阵会更好些,即假设类协方差矩阵 Σ 1 , . . . , Σ C \Sigma_1,...,\Sigma_C Σ1,...,ΣC 相同。此时,判别函数简化为:

    g j ( x ) = l o g ( p ( ϖ j ) ) − 1 2 μ ^ j T S W − 1 μ ^ j + x T S W − 1 μ ^ j g_j(x)=log(p(\varpi_j))-\frac{1}{2}\hat{\mu}_j^TS_W^{-1}\hat{\mu}_j+x^TS_W^{-1}\hat{\mu}_j gj(x)=log(p(ϖj))21μ^jTSW1μ^j+xTSW1μ^j

    其中, μ ^ j \hat{\mu}_j μ^j ϖ j \varpi_j ϖj 类的样本均值, S W S_W SW 为全部类的协方差矩阵的估计(也被称为合并协方差矩阵),这是规范的线性判别函数;判别规则为:对所有的 j ≠ i j\ne i j=i ,若 g i > g j g_i>g_j gi>gj ,则 x x x 属于 ϖ i \varpi_i ϖi 类。全部类的协方差矩阵的最大似然估计由类内样本的协方差矩阵汇集而成:

    S W = Σ j = 1 C n j n Σ ^ j S_W=\Sigma_{j=1}^C\frac{n_j}{n}\hat{\Sigma}_j SW=Σj=1CnnjΣ^j

    其中, n j n_j nj ϖ j \varpi_j ϖj 类训练样本的数量, n n n 是各类训练样本的总数。无偏估计由下式给出:

    n n − C S W \frac{n}{n-C}S_W nCnSW

    对于特殊的两类问题,判别形式可以简化为 w T x + w 0 w^Tx+w_0 wTx+w0 的取值。若其值大于0,则将 x x x 归入 ϖ 1 \varpi_1 ϖ1 类,反之则将 x x x 归入 ϖ 2 \varpi_2 ϖ2 类。上式中,

    w = S W − 1 ( μ ^ 1 − μ ^ 2 ) w=S_W^{-1}(\hat{\mu}_1-\hat{\mu}_2) w=SW1(μ^1μ^2)
    w 0 = − l o g ( p ( ϖ 2 ) p ( ϖ 1 ) ) − 1 2 ( μ ^ 1 + μ ^ 2 ) T w w_0=-log(\frac{p(\varpi_2)}{p(\varpi_1)})-\frac{1}{2}(\hat{\mu}_1+\hat{\mu}_2)^Tw w0=log(p(ϖ1)p(ϖ2))21(μ^1+μ^2)Tw

    对于 S W S_W SW 为单位矩阵且各类的先验概率 p ( ϖ i ) p(\varpi_i) p(ϖi) 相等的特殊情况,判别规则可改写为:对所有的 j ≠ i j\ne i j=i ,若

    − 2 x T μ ^ i + μ ^ i T μ ^ i < − 2 x T μ ^ j + μ ^ j T μ ^ j -2x^T\hat{\mu}_i+\hat{\mu}_i^T\hat{\mu}_i<-2x^T\hat{\mu}_j+\hat{\mu}_j^T\hat{\mu}_j 2xTμ^i+μ^iTμ^i<2xTμ^j+μ^jTμ^j

    则将 x x x 归入 ϖ i \varpi_i ϖi 类。这就是最近类均值分类器(nearest class mean classifier)。之所以把英文打出来是因为想要让注意的是到目前为止遇见的类所代表的含义指的是类别(class)而不是类似。

  3. 正则化判别分析

    正则化判别分析(RDA),针对小样本、高维数据集,该方法可以克服二次判别函数性能的退化,它包含了复杂性参数 λ \lambda λ收缩参数 γ \gamma γ λ \lambda λ 使规则介于线性和非线性判别规则之间, γ \gamma γ 可以修正协方差矩阵。其判别规则为:若对所有的 j ≠ i j\ne i j=i g i > g j g_i>g_j gi>gj ,则将 x x x 归于 ϖ i \varpi_i ϖi 类,其中:

    g j ( x ) = l o g ( p ( ϖ j ) ) − 1 2 l o g ( ∣ Σ j λ , γ ∣ ) − 1 2 ( x − μ ^ j ) T ( Σ j λ , γ ) − 1 ( x − μ ^ j ) g_j(x)=log(p(\varpi_j))-\frac{1}{2}log(|\Sigma_j^{\lambda,\gamma}|)-\frac{1}{2}(x-\hat{\mu}_j)^T(\Sigma_j^{\lambda,\gamma})^{-1}(x-\hat{\mu}_j) gj(x)=log(p(ϖj))21log(Σjλ,γ)21(xμ^j)T(Σjλ,γ)1(xμ^j)
    其中,
    Σ j λ = ( 1 − λ ) n j Σ ^ j + λ n S W ( 1 − λ ) n j + λ n \Sigma_j^\lambda=\frac{(1-\lambda)n_j\hat{\Sigma}_j+\lambda nS_W}{(1-\lambda)n_j+\lambda n} Σjλ=(1λ)nj+λn(1λ)njΣ^j+λnSW
    Σ j λ , γ = ( 1 − γ ) Σ j + γ c j ( λ ) I d \Sigma_j^{\lambda,\gamma}=(1-\gamma)\Sigma_j+\gamma c_j(\lambda)I_d Σjλ,γ=(1γ)Σj+γcj(λ)Id
    其中, I d I_d Id 为单位阵, c j ( λ ) c_j(\lambda) cj(λ) 反映 Σ j λ \Sigma_j^\lambda Σjλ 的平均特征值:
    c j ( λ ) = T r { Σ j λ } / d c_j(\lambda)=Tr\lbrace \Sigma_j^\lambda \rbrace/d cj(λ)=Tr{ Σjλ}/d

    如果进一步解读 Σ j λ \Sigma_j^\lambda Σjλ 可以发现,当 λ \lambda λ 的值为0或1的时候,协方差矩阵估计分别对应二次判别规则和线性判别规则。

三、有限混合模型

混合模型相较于高斯分类器而言,功能更加强大,可以模拟多种非高斯分布,是一种用简单密度模拟复杂密度的数学方法。

本篇博客就写到这里了。有限混合模型更加复杂,需要耐心与绘图工具来辅助理解。下篇博客将介绍另外一种类条件概率密度参数估计的方法——密度估计的贝叶斯法。

猜你喜欢

转载自blog.csdn.net/qq_44868018/article/details/107935620