机器学习系列文章:线性判别式

引言

     前面,笔者的机器学习系列文章介绍了基于密度估计的参数化方法,该方法主要建立在密度分布在一定假设的基础上。本文我们将详细探讨线性判别式方法,假定类的实例是线性可分的。基于判别式的方法,跳过了估计分布最大似然求参数的过程,而是直接估计判别式的参数。这两种算法没有好坏之分,只有适用环境之分。从学科进步的角度来说,两种算法思路在当时的环境下都对当时科技进步起到了一定的推进作用。愿我们读者在使用前人的成果时,时刻保持谦卑之心,积极开拓思路,以期比肩前人。

   前面讲过,基于判别式的方法对类之间的判别式假定模型,而不是对密度。这里我们对把类分开的边界进行假设,而不是对类密度的形式进行假设。我们不关注正确估计类密度区域中的密度,而是关注正确估计类区域之间的边界。判别式方法的创立者支出,估计类密度比估计判别式更困难,并且为解决较容易的问题而解决困难的问题是没有意义的,当然,仅当判别式可以用简单函数近似时才确实如此。所以本节,我们关注判别式最简单的情况,即线性函数。

                                         

  线性判别式经常使用,主要是由于它的简单性。它的时间复杂度和空间复杂度都是,而且容易理解,线性判别式中权重大小显示了变量的重要性,而符号显示其作用的正负。

  在许多应用中,线性判别式相当准确。当类密度是高斯且具有相同的协方差矩阵时,最佳判别式是线性的。即使该假设不成立,也可以使用线性判别式,并且不必对类密度做出任何假设就能计算模型参数。在试用更复杂的模型,确保增加的复杂性合理之前,我们应该一直使用线性判别式。跟前面一样,我们机器学习的大部分算法都归结为最小化损失函数优化参数值的问题。

  前面我们还介绍过,提高模型拟合程度的的两种方式,一种是使用高次多项式,另一种是推广线性模型使用线性模型映射非线性函数。也就是我们常说的基函数或核函数。

一、参数判别式的进一步讨论

   本节,我们将利用本章线性判别式的相关内容进行逻辑斯谛函数的推导。由前面我们讨论的多元参数化方法中,当后验概率满足高斯分布且每个类具有相同的协方差矩阵的情况下,判别式函数是线性的推导。具体推导可参考:

                               https://blog.csdn.net/mago2015/article/details/82837673

  由上述结论可知,判别式满足线性:其中参数可以根据上述链接处具体推导得到:

                               

  给定数据集,我们首先计算均值向量和协方差矩阵,让后把估计插入上式(还是最大似然方法,具体原因见笔者系列文章解读),并计算出判别式的参数。

下面我们讨论两类的特殊情况下的分类问题,即逻辑斯谛函数的推导过程。

二、逻辑斯谛判别式推导(两类问题)

   上面笔者讲解了,在二分类情况下逻辑斯谛函数的详细推导过程。本节我们将从二分类的整体算法角度描述逻辑斯谛函数如何解决分类问题。

  逻辑斯谛判别式不是对类条件密度进行建模,而是对它们的比率建模。在假定对数似然比是线性时有:

                                

  而且,由上节可知,当类条件密度为正态时,这种假设确实是成立的。所以使用贝叶斯规则。

   针对上述描述,部分读者可能在对哪个建模的问题上有些糊涂了。这里我们再进行详细阐述。上述的推导过程和运算都是建立在相同协方差矩阵正态类的情况下,判别式函数是线性函数的基础上。在之前,我们是对显式地估计类似然和先验来求后验,然后估计类似然满足分布中参数。而本节我们直接估计后验。

三、逻辑斯谛判别式推导(多类问题 softmax)

总结

  本节讲解了线性判别式的基本概念,并利用线性判别式进行分类。此外,讨论了在‘类密度满足高斯且具有相同协方差矩阵’的前提下,对数几率也是满足线性判别式的特殊性质。进而推出线性判别式和后验概率的桥梁——逻辑斯谛函数。最后,我们推广了上述的二分类问题,在所分类问题上我们的对数几率函数所满足的性质,我们推出了softmax函数。进而扫清了线性判别式在分类问题上的障碍。

 上述的推导过程和运算都是建立在相同协方差矩阵正态类的情况下,判别式函数是线性函数的基础上。在之前,我们是对显式地估计类似然和先验来求后验,然后估计类似然满足分布中参数。而本节我们直接通过构建线性判别式函数结合逻辑斯谛函数估计后验。可以说,逻辑斯谛函数是线性判别式与后验概率之间的桥梁。

   在此,笔者不禁感叹前人的智慧和数学的魅力。最后以参考资料中的一句话作为结束:没有什么能够比好的理论更实用。

引:机器学习导论

猜你喜欢

转载自blog.csdn.net/mago2015/article/details/82854082