机器学习笔记7 －－ KNN & K-Means

训练数据包括样本的特征向量（x）和标签（y）；k是一个常数，由用户来定义，k值越大，受噪声的影响越小；但k值越大，也越容易模糊类别之间的界限；一个没有标签的样本进入算法后，首先找到与它距离最近的k个样本，然后用它这k个最近邻中出现次数最多的标签来确定它的标签，或者是取k个近邻的目标值平均数，作为未知对象的预测结果。

问题及优化方法

多数表决法有个问题：如果训练样本的类别分布不均衡，出现频率较多的样本将会主导预测结果。

这一问题的解决办法有多种，其中常见的一种是：不再简单计算k个近邻中的多数，而是同时考虑k个近邻的距离，k近邻中每一个样本的类别（或目标值）都以距离的倒数为权值，最后求全体加权结果。

K-Means

是一种聚类算法，和降维算法同属于无监督学习算法。聚类就是通过对样本静态特征的分析，把相似的对象分成不同子集（“簇”），被分到同一个子集中的样本对象都具有相似的属性。

假设有n个样本(x1,x2,…,xn)，每个都是d维实向量，KMeans 聚类的目标是将它们分为k个簇（k⩽n)，这些簇表示为S=(S1,S2,…,Sk)。KMeans 算法的目标是使得簇内平方和（Within-cluster Sum of Squares，WCSS ）最小：

其中μi是Si的重心。

基本思想

用户确定k值，并将n个样本投射为特征空间（一般为欧氏空间）中的n个点（k⩽n）；
算法在这n个点中随机选取k个点，作为初始的“簇核心”；
分别计算每个样本点到k个簇核心的距离（这里的距离一般取欧氏距离或余弦距离），找到离该点最近的簇核心，将它归属到对应的簇；设此时为时刻t，t时刻Si的簇核心为μ(t)i。将某个样本点xp归入到簇S(t)i的原则是：它归入该簇后，对该簇 WCSS 的贡献最小。因为 WCSS 等于簇中各点到该簇核心的欧氏距离平方和，又因为在每次进行 Step 3之前，我们已经认定了当时所有簇的簇核心μ(t)i，i=1,2,...,k已经存在。因此只要把xp分配到离它最近的簇核心即可。
所有点都归属到簇之后，n个点就分为了k个簇。之后重新计算每个簇的重心（平均距离中心），即对于该簇中的所有样本求均值，其中|Si|表示Si中样本的个数，将其定为新的“簇核心”；
反复迭代3-4，直到簇核心不再移动为止。

上述算法称为Lloyd's 算法，是一种最常见的用于实现 KMeans 的启发式算法（一种基于直观或经验构造的算法），通常情况它时间复杂度是 O(nkdi)，其中n为样本数，k为簇数，d为样本维度数，而i为从开始到收敛的迭代次数。

K-Means算法的局限

KMeans 简单直观，有了启发式算法后，计算复杂度也可以接受，但是：

k值对最终结果的影响至关重要，给定合适的k值，需要先验知识，凭空估计很困难，或者可能导致效果很差。
初始簇核心一般是随机选定的，一旦选择的不合适，可能只能得到局部的最优解，而无法得到全局的最优解。

这也就造成了 KMeans 的应用局限，使得它并不适合所有的数据。例如，对于非球形簇，或者多个簇之间尺寸和密度相差较大的情况，KMeans 就处理不好。