上篇文章我们介绍了Parzen窗无参数估计的方法,这篇文章主要介绍令外一种无参数估计方法——K近邻法(KNN)。然后基于K近邻的原理,简单介绍K近邻分类器
前文讲过,与Parzen窗方法不同的是,K近邻估计要求每个空间窗口含有相同数目的个样本数据。
根据第x个空间的相对大小,来衡量该空间中心的概率密度,有
因此只要计算出第x个空间包含个样本的窗口空间,即可求出x点处的概率密度。
先考虑一维情况
如图所示
若取=1则在x点窗口空间应为
若取,考虑对称性,则在x点的窗口空间应为
若取,考虑对称性,则在x点的窗口空间应为
若取,则
对于d维空间中的样本数据
可以用球来度量K近邻窗口空间,也可以用广义立方体来度量
如果用广义立方体来度量,则
于是
值得一提的是:利用K近邻原理,可以直接设计分类器,因为上述步骤可以计算出后验概率P(ωi|x)。
主要思路:
假设针对一个c类问题,给定待估样本x,我们捕获x周围S个样本,其中个样本属于类别。很直观地想法是x应该分到最多的类别中。
数学模型
因此
模型的结果与我们的直观想法一致!