4、Classification- Probabilistic Generative Model(分类-概率生成模型)

本篇博客将介绍监督学习中另一主要应用——分类算法,不同于回归算法,分类算法的输出是离散的分类变量,在实际有着广泛的应用。


目录

分类问题

分类问题中的线性回归

分类问题算法

贝叶斯

贝叶斯公式

极大似然估计参数

朴素贝叶斯


分类问题

分类问题中的线性回归

我们考虑一个包含两类的数据集,一类标记为-1,一类标记为1,如果对于左图中的数据利用回归模型可以很好的区分,但是数据分布不是聚集分布,如右图,有部分class1的数据远离拟合的直线,根据线性回归此时拟合的直线变为紫色直线,出现误判的情况。

分类问题算法

现在按照机器学习简介中机器学习建模步骤,

  1. Model:输入xf(x)定义为:当g(x)>0时,输出class=1,否则输出calss=2
  2. Loss function:L(f)=\sum_n\delta (f(x^n)\neq \hat{y}^n)
  3. 寻找最优函数

 

贝叶斯

贝叶斯公式

有两个盒子,都有蓝色球和绿色球,现在随机从两个盒子中抽出一个蓝色的球,根据贝叶斯公式可以计算。

现在我们有79只水系宝可梦、61只一般系宝可梦的Defense和SP Defense属性值,假设服从联合高斯分布f_{u_1,\Sigma_1 }=\frac{1}{(2 \pi)^{D/2}}\frac{1}{|\Sigma_1|^{1/2}}exp\{{-\frac{1}{2}(x-u_1)^T\Sigma_1^{-1}(x-u_1)}\},f_{u_2,\Sigma_2 }=\frac{1}{(2 \pi)^{D/2}}\frac{1}{|\Sigma_2|^{1/2}}exp\{{-\frac{1}{2}(x-u_2)^T\Sigma_2^{-1}(x-u_2)}\}

极大似然估计参数

u_1^*,\Sigma_1^*=argmax_{u_1,\Sigma_1}L(u_1,\Sigma_1)=argmax_{u_1,\Sigma_1}f_{u_1,\Sigma_1}(x^1)f_{u_1,\Sigma_1}(x^2)\dots f_{u_1,\Sigma_1}(x^{79})

u_2^*,\Sigma_2^*=argmax_{u_2,\Sigma_2}L(u_2,\Sigma_2)=argmax_{u_2,\Sigma_2}f_{u_2,\Sigma_2}(x^1)f_{u_2,\Sigma_2}(x^2)\dots f_{u_2,\Sigma_2}(x^{79})

解得,u_1^*=\frac{1}{79}\sum_{n=1}^{79}x^n,\Sigma_1^*=\frac{1}{79}\sum_{n=1}^{79}(x^n-u_1^*)(x^n-u_1^*)^T

u_2^*=\frac{1}{61}\sum_{n=80}^{140}x^n,\Sigma_2^*=\frac{1}{61}\sum_{n=80}^{140}(x^n-u_2^*)(x^n-u_2^*)^T

考虑引入更多的特征进一步建模,并且假设两类的高斯分布\Sigma相同以避免参数过多带来过拟合问题同样使用极大似然估计估计参数:

u^1,u^2,\Sigma= argmax_{u^1,u^2,\Sigma}L(u^1,u^2,\Sigma)= argmax_{u^1,u^2,\Sigma}\prod _{n=1}^{79}f_{u^1,\Sigma}(x^n)\prod _{n=80}^{140}f_{u^2,\Sigma}(x^n)

求解得到:u_1^*=\frac{1}{79}\sum_{n=1}^{79}x^n,u_2^*=\frac{1}{61}\sum_{n=80}^{140}x^n,\Sigma^*=\frac{79}{79+61}\Sigma^1+\frac{61}{79+61}\Sigma^2,结合机器学习的三步骤,此时得到的分类函数是线性的。

朴素贝叶斯

现在假设每一个类中的每一个变量的分布是独立的,P(x_1,x_2\dots x_n|C_1)=\prod _{i=1}^nP(x_i|C_1),此时只要估计每一个一维高斯分布的参数。

P(C_1|x)=\frac{P(x|C_1)P(C_1)}{P(x|C_2)P(C_2)+P(x|C_2)P(C_2)}=\frac{1}{1+\frac{P(x|C_2)P(C_2)}{P(x|C_1)P(C_1)}}=\frac{1}{1+exp(-z)},其中z=ln\frac{P(x|C_2)P(C_2)}{P(x|C_1)P(C_1)}

猜你喜欢

转载自blog.csdn.net/qq_17438303/article/details/82014511