机器学习笔记7 -- KNN & K-Means

Table of Contents

三种监督学习算法

有监督学习算法

无监督

半监督

KNN(K-Nearest Neighbor/K-近邻算法)

基本思想:

问题及优化方法

K-Means

基本思想

K-Means算法的局限

扫描二维码关注公众号,回复: 3286498 查看本文章

三种监督学习算法

有监督学习算法

训练数据中同时拥有输入变量和输出变量,用一个算法把从输入到输出的映射关系学习出来,当我们拿到新的数据后,就可以通过已经被学习出的映射关系(模型),得到相应的输出。有监督学习的预测结果可控,优化目标明确,只要方法得当,数据质量好,一般模型质量也能比较好。在实际问题上的应用,以有监督学习为主。

无监督

训练数据中只有输入变量并没有输出变量,无监督学习的目的是将这些训练数据潜在的结构或者分布找出来,当我们拿到新的输入数据时有更多的了解。

半监督

是一种混合了有监督和无监督学习的方法。有监督学习虽然有效,但标注数据(给训练数据x指定正确的y)在目前还是一种劳动力密集型的人工劳动,而且大量数据都没有被人工标注过。

它的学习方法是先用无监督学习技术来发现和学习输入变量的结构;然后用有监督学习对未标注数据的输出结果进行“猜测”;最后再将带着猜测标签的数据作为训练数据训练有监督模型。

KNN(K-Nearest Neighbor/K-近邻算法)

KNN是一种有监督学习算法既可以用于分类,又可以用于回归的非参数统计方法。

基本思想:

训练数据包括样本的特征向量(x)和标签(y);k是一个常数,由用户来定义,k值越大,受噪声的影响越小;但k值越大,也越容易模糊类别之间的界限;一个没有标签的样本进入算法后,首先找到与它距离最近的k个样本,然后用它这k个最近邻中出现次数最多的标签来确定它的标签,或者是取k个近邻的目标值平均数,作为未知对象的预测结果。

问题及优化方法

多数表决法有个问题:如果训练样本的类别分布不均衡,出现频率较多的样本将会主导预测结果。

这一问题的解决办法有多种,其中常见的一种是:不再简单计算k个近邻中的多数,而是同时考虑k个近邻的距离,k近邻中每一个样本的类别(或目标值)都以距离的倒数为权值,最后求全体加权结果。

K-Means

是一种聚类算法,和降维算法同属于无监督学习算法。聚类就是通过对样本静态特征的分析,把相似的对象分成不同子集(“簇”),被分到同一个子集中的样本对象都具有相似的属性。

假设有n个样本(x1,x2,…,xn),每个都是d维实向量,KMeans 聚类的目标是将它们分为k个簇(k⩽n),这些簇表示为S=(S1,S2,…,Sk)。KMeans 算法的目标是使得簇内平方和(Within-cluster Sum of Squares,WCSS )最小:

其中μi是Si的重心。

基本思想

  1. 用户确定k值,并将n个样本投射为特征空间(一般为欧氏空间)中的n个点(k⩽n);
  2. 算法在这n个点中随机选取k个点,作为初始的“簇核心”;
  3. 分别计算每个样本点到k个簇核心的距离(这里的距离一般取欧氏距离或余弦距离),找到离该点最近的簇核心,将它归属到对应的簇;设此时为时刻t,t时刻Si的簇核心为μ(t)i。将某个样本点xp归入到簇S(t)i的原则是:它归入该簇后,对该簇 WCSS 的贡献最小。因为 WCSS 等于簇中各点到该簇核心的欧氏距离平方和,又因为在每次进行 Step 3之前,我们已经认定了当时所有簇的簇核心μ(t)i,i=1,2,...,k已经存在。因此只要把xp分配到离它最近的簇核心即可 。
  4. 所有点都归属到簇之后,n个点就分为了k个簇。之后重新计算每个簇的重心(平均距离中心),即对于该簇中的所有样本求均值,其中|Si|表示Si中样本的个数,将其定为新的“簇核心”;
  5. 反复迭代3-4,直到簇核心不再移动为止。

上述算法称为Lloyd's 算法,是一种最常见的用于实现 KMeans 的启发式算法(一种基于直观或经验构造的算法),通常情况它时间复杂度是 O(nkdi),其中n为样本数,k为簇数,d为样本维度数,而i为从开始到收敛的迭代次数。

K-Means算法的局限

KMeans 简单直观,有了启发式算法后,计算复杂度也可以接受,但是:

  • k值对最终结果的影响至关重要,给定合适的k值,需要先验知识,凭空估计很困难,或者可能导致效果很差。
  • 初始簇核心一般是随机选定的,一旦选择的不合适,可能只能得到局部的最优解,而无法得到全局的最优解。

这也就造成了 KMeans 的应用局限,使得它并不适合所有的数据。例如,对于非球形簇,或者多个簇之间尺寸和密度相差较大的情况,KMeans 就处理不好。

猜你喜欢

转载自blog.csdn.net/ZJL0105/article/details/81878266