4、【李宏毅机器学习(2017)】Classification- Probabilistic Generative Model(分类-概率生成模型)

本篇博客将介绍监督学习中另一主要应用——分类算法,不同于回归算法回归算法,分类算法的输出是离散的分类变量,在实际有着广泛的应用。


目录


分类问题

分类问题中的线性回归

我们考虑一个包含两类的数据集,一类标记为-1,一类标记为1,如果对于左图中的数据利用回归模型可以很好的区分,但是数据分布不是聚集分布,如右图,有部分class1的数据远离拟合的直线,根据线性回归此时拟合的直线变为紫色直线,出现误判的情况。
这里写图片描述

分类问题算法

现在按照机器学习简介中机器学习建模步骤,

  1. Model:输入 x f ( x ) 定义为:当 g ( x ) > 0 时,输出class=1,否则输出calss=2
  2. Loss function: L ( f ) = n δ ( f ( x n ) y ^ n )
  3. 寻找最优函数

贝叶斯

贝叶斯公式

有两个盒子,都有蓝色球和绿色球,现在随机从两个盒子中抽出一个蓝色的球,根据贝叶斯公式可以计算。
这里写图片描述

现在我们有79只水系宝可梦、61只一般系宝可梦的Defense和SP Defense属性值,假设服从联合高斯分布 f u 1 , Σ 1 = 1 ( 2 π ) D / 2 1 | Σ 1 | 1 / 2 e x p { 1 2 ( x u 1 ) T Σ 1 1 ( x u 1 ) } , f u 2 , Σ 2 = 1 ( 2 π ) D / 2 1 | Σ 2 | 1 / 2 e x p { 1 2 ( x u 2 ) T Σ 2 1 ( x u 2 ) }
这里写图片描述

极大似然估计参数

u 1 , Σ 1 = a r g m a x u 1 , Σ 1 L ( u 1 , Σ 1 ) = a r g m a x u 1 , Σ 1 f u 1 , Σ 1 ( x 1 ) f u 1 , Σ 1 ( x 2 ) f u 1 , Σ 1 ( x 79 )
u 2 , Σ 2 = a r g m a x u 2 , Σ 2 L ( u 2 , Σ 2 ) = a r g m a x u 2 , Σ 2 f u 2 , Σ 2 ( x 1 ) f u 2 , Σ 2 ( x 2 ) f u 2 , Σ 2 ( x 79 )

解得, u 1 = 1 79 n = 1 79 x n , Σ 1 = 1 79 n = 1 79 ( x n u 1 ) ( x n u 1 ) T
u 2 = 1 61 n = 80 140 x n , Σ 2 = 1 61 n = 80 140 ( x n u 2 ) ( x n u 2 ) T

这里写图片描述

考虑引入更多的特征进一步建模,并且假设两类的高斯分布 Σ 相同以避免参数过多带来过拟合问题,同样使用极大似然估计估计参数:

u 1 , u 2 , Σ = a r g m a x u 1 , u 2 , Σ L ( u 1 , u 2 , Σ ) = a r g m a x u 1 , u 2 , Σ n = 1 79 f u 1 , Σ ( x n ) n = 80 140 f u 2 , Σ ( x n )

求解得到: u 1 = 1 79 n = 1 79 x n , u 2 = 1 61 n = 80 140 x n , Σ = 79 79 + 61 Σ 1 + 61 79 + 61 Σ 2 ,结合机器学习的三步骤,此时得到的分类函数是线性的。
这里写图片描述

朴素贝叶斯

现在假设每一个类中的每一个变量的分布是独立的, P ( x 1 , x 2 x n | C 1 ) = i = 1 n P ( x i | C 1 ) ,此时只要估计每一个一维高斯分布的参数。

P ( C 1 | x ) = P ( x | C 1 ) P ( C 1 ) P ( x | C 2 ) P ( C 2 ) + P ( x | C 2 ) P ( C 2 ) = 1 1 + P ( x | C 2 ) P ( C 2 ) P ( x | C 1 ) P ( C 1 ) = 1 1 + e x p ( z ) ,其中 z = l n P ( x | C 2 ) P ( C 2 ) P ( x | C 1 ) P ( C 1 )
这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

猜你喜欢

转载自blog.csdn.net/Jimmyzqb/article/details/82146137
今日推荐