1. KNN算法概述

　　KNN属于分类算法，没有训练过程，新样本根据距离寻找最靠近样本的K个点，根据这K个点的分类确定新样本类别（选择K个点的多数分类）。

　　如下图，历史数据集有两类，红色三角形和蓝色正方形，现在需要判定绿色圆圈属于三角形还是正方形？

　　由图可见，若K值选择3，与圆圈最近的3个点中，有1个正方形和2个三角形，则我们判定绿色圆圈属于三角形类。若K选择5，则相应判定绿色圆圈属于正方形类。

算法描述：

　由算法可见，影响分类结果的主要是K值和距离，所以使用KNN分类重点应该在选择最优K值和合适距离度量方法。

2. 如何选择K？

　　距离度量就是如何衡量样本（特征向量）之间的距离，距离越小，相似度大，属于同一类别概率大。

　　常用的距离的度量方法有：欧式距离，曼哈顿距离；余弦相似性，皮尔逊相关系数。

　　其中余弦相似性和相关系数用于衡量样本之间相似性，相似性越大，属于同一类别概率大。

　　存在特征向量X = (x1,x2,x3...xn) Y=(y1,y2,y3..,yn)

　　欧式距离：

$dist(X,Y) = \sqrt{\sum_{i=1}^{n}(x_{i}-y_{i})^{2}}$

　　曼哈顿距离：

$dist(X,Y) = \sum_{i=1}^{n}\left |x_{i}-y_{i} \right |$

　　余弦相似性（注重两个向量在方向上的差异，而不是数值上的差异）：

$sim(X,Y) = \cos (\theta) = \frac{X\cdot Y}{\left \| X \right \|\left \| Y \right \|}$

　　皮尔逊相关系数（衡量样本特征向量之间的线性相关程度）计算方法为协方差/标准差乘积、

　　2020-05-27 20:21