本篇博客将介绍监督学习中另一主要应用——分类算法,不同于回归算法,分类算法的输出是离散的分类变量,在实际有着广泛的应用。
目录
分类问题
分类问题中的线性回归
我们考虑一个包含两类的数据集,一类标记为-1,一类标记为1,如果对于左图中的数据利用回归模型可以很好的区分,但是数据分布不是聚集分布,如右图,有部分class1的数据远离拟合的直线,根据线性回归此时拟合的直线变为紫色直线,出现误判的情况。
分类问题算法
现在按照机器学习简介中机器学习建模步骤,
- Model:输入,定义为:当时,输出class=1,否则输出calss=2
- Loss function:
- 寻找最优函数
贝叶斯
贝叶斯公式
有两个盒子,都有蓝色球和绿色球,现在随机从两个盒子中抽出一个蓝色的球,根据贝叶斯公式可以计算。
现在我们有79只水系宝可梦、61只一般系宝可梦的Defense和SP Defense属性值,假设服从联合高斯分布
极大似然估计参数
解得,
考虑引入更多的特征进一步建模,并且假设两类的高斯分布相同以避免参数过多带来过拟合问题,同样使用极大似然估计估计参数:
求解得到:,结合机器学习的三步骤,此时得到的分类函数是线性的。
朴素贝叶斯
现在假设每一个类中的每一个变量的分布是独立的,,此时只要估计每一个一维高斯分布的参数。
,其中