本篇博客将介绍监督学习中另一主要应用——分类算法，不同于回归算法回归算法，分类算法的输出是离散的分类变量，在实际有着广泛的应用。

分类问题

分类问题中的线性回归

我们考虑一个包含两类的数据集，一类标记为-1，一类标记为1，如果对于左图中的数据利用回归模型可以很好的区分，但是数据分布不是聚集分布，如右图，有部分class1的数据远离拟合的直线，根据线性回归此时拟合的直线变为紫色直线，出现误判的情况。
这里写图片描述

分类问题算法

现在按照机器学习简介中机器学习建模步骤，

Model：输入 $x$ ， $f(x)$ 定义为：当 $g(x)>0$ 时，输出class=1，否则输出calss=2
Loss function： $L(f)=\sum_n\delta (f(x^n)\neq \hat{y}^n)$
寻找最优函数

贝叶斯

贝叶斯公式

有两个盒子，都有蓝色球和绿色球，现在随机从两个盒子中抽出一个蓝色的球，根据贝叶斯公式可以计算。
这里写图片描述

现在我们有79只水系宝可梦、61只一般系宝可梦的Defense和SP Defense属性值，假设服从联合高斯分布 $f_{u_1,\Sigma_1 }=\frac{1}{(2 \pi)^{D/2}}\frac{1}{|\Sigma_1|^{1/2}}exp\{{-\frac{1}{2}(x-u_1)^T\Sigma_1^{-1}(x-u_1)}\},f_{u_2,\Sigma_2 }=\frac{1}{(2 \pi)^{D/2}}\frac{1}{|\Sigma_2|^{1/2}}exp\{{-\frac{1}{2}(x-u_2)^T\Sigma_2^{-1}(x-u_2)}\}$ 。
这里写图片描述

极大似然估计参数

$u_1^*,\Sigma_1^*=argmax_{u_1,\Sigma_1}L(u_1,\Sigma_1)=argmax_{u_1,\Sigma_1}f_{u_1,\Sigma_1}(x^1)f_{u_1,\Sigma_1}(x^2)\dots f_{u_1,\Sigma_1}(x^{79})$
$u_2^*,\Sigma_2^*=argmax_{u_2,\Sigma_2}L(u_2,\Sigma_2)=argmax_{u_2,\Sigma_2}f_{u_2,\Sigma_2}(x^1)f_{u_2,\Sigma_2}(x^2)\dots f_{u_2,\Sigma_2}(x^{79})$

解得， $u_1^*=\frac{1}{79}\sum_{n=1}^{79}x^n,\Sigma_1^*=\frac{1}{79}\sum_{n=1}^{79}(x^n-u_1^*)(x^n-u_1^*)^T$
$u_2^*=\frac{1}{61}\sum_{n=80}^{140}x^n,\Sigma_2^*=\frac{1}{61}\sum_{n=80}^{140}(x^n-u_2^*)(x^n-u_2^*)^T$

这里写图片描述

考虑引入更多的特征进一步建模，并且假设两类的高斯分布 $\Sigma$ 相同以避免参数过多带来过拟合问题，同样使用极大似然估计估计参数：

u^{1}, u^{2}, Σ = a r g m a x_{u^{1}, u^{2}, Σ} L (u^{1}, u^{2}, Σ) = a r g m a x_{u^{1}, u^{2}, Σ} \prod_{n = 1}^{79} f_{u^{1}, Σ} (x^{n}) \prod_{n = 80}^{140} f_{u^{2}, Σ} (x^{n})

$u^1,u^2,\Sigma= argmax_{u^1,u^2,\Sigma}L(u^1,u^2,\Sigma)= argmax_{u^1,u^2,\Sigma}\prod _{n=1}^{79}f_{u^1,\Sigma}(x^n)\prod _{n=80}^{140}f_{u^2,\Sigma}(x^n)$

求解得到： $u_1^*=\frac{1}{79}\sum_{n=1}^{79}x^n,u_2^*=\frac{1}{61}\sum_{n=80}^{140}x^n,\Sigma^*=\frac{79}{79+61}\Sigma^1+\frac{61}{79+61}\Sigma^2$ ，结合机器学习的三步骤，此时得到的分类函数是线性的。
这里写图片描述

朴素贝叶斯

现在假设每一个类中的每一个变量的分布是独立的， $P(x_1,x_2\dots x_n|C_1)=\prod _{i=1}^nP(x_i|C_1)$ ，此时只要估计每一个一维高斯分布的参数。

$P(C_1|x)=\frac{P(x|C_1)P(C_1)}{P(x|C_2)P(C_2)+P(x|C_2)P(C_2)}=\frac{1}{1+\frac{P(x|C_2)P(C_2)}{P(x|C_1)P(C_1)}}=\frac{1}{1+exp(-z)}$ ，其中 $z=ln\frac{P(x|C_2)P(C_2)}{P(x|C_1)P(C_1)}$
这里写图片描述