K近邻无参数估计和K近邻分类器

上篇文章我们介绍了Parzen窗无参数估计的方法,这篇文章主要介绍令外一种无参数估计方法——K近邻法(KNN)。然后基于K近邻的原理,简单介绍K近邻分类器

前文讲过,与Parzen窗方法不同的是,K近邻估计要求每个空间窗口含有相同数目的个样本数据。

根据第x个空间的相对大小,来衡量该空间中心的概率密度,有

                                      P(x)=\frac{S_k}{nV_x}

因此只要计算出第x个空间包含个样本的窗口空间,即可求出x点处的概率密度。

先考虑一维情况

              如图所示

                             

              若取=1则在x点窗口空间应为

                              V_x=2|x-x_2|$

              若取,考虑对称性,则在x点的窗口空间应为

                              $V_x=2|x-x_1| $

              若取,考虑对称性,则在x点的窗口空间应为

                               V_x=2|x-x_4| $

               若取,则

                               $V_x=2|x-x_{kNN}| $

对于d维空间中的样本数据

               可以用球来度量K近邻窗口空间,也可以用广义立方体来度量

               如果用广义立方体来度量,则

                              V_x=2^d \prod \limits_{i=1}^d|x^i-x_{kNN}^i| $

               于是

                              P(x)=\frac{S_k}{V_x=2^d \prod \limits_{i=1}^d|x^i-x_{kNN}^i| }

值得一提的是:利用K近邻原理,可以直接设计分类器,因为上述步骤可以计算出后验概率P(ωi|x)

              主要思路:

              假设针对一个c类问题,给定待估样本x,我们捕获x周围S个样本,其中个样本属于类别。很直观地想法是x应该分到最多的类别中。

               数学模型

                           S=\sum \limits_{i=1}^cS_i \\ p(x,\omega_i)=\frac{S_i}{nV} \\ p(\omega_i|x)=\frac{P(x,\omega_i)}{\sum \limits_{i=1}^cP(x,\omega_i)}=\frac{S_i}{S}\\

                            因此

                             \omega_i=argmax \limits_{i} \{ P(\omega_i|x) \}=argmax \limits_{i} \{ S_i \}$

   

                 模型的结果与我们的直观想法一致!

猜你喜欢

转载自blog.csdn.net/weixin_39516246/article/details/83216198