KNN-机器学习实战系列（一）

开门见山，本文单说KNN：

作为机器学习实战书籍介绍的第一个算法，有一些值得说道的地方：

1：什么是KNN？

机器学习的一些基本知识和概念不加叙述了，直接给出KNN的白话定义：给定M个样本，每个样本均有N个数字衡量的属性，而每个样本均带有自身的标签：

这里，为什么需要数字化定义属性呢？这方便了我们衡量指标的计算，我们可以使用距离这一可用数学表达式实现的概念，来阐述何谓近邻。

而KNN，英文名：k-Nearest Neigbhors :称作K近邻算法，每次来一个新的样本，就可以通过从M个样本中，找出K个最近的样本，通过这K个样本的属性来判别新样本的类别：

可以看出，KNN属于监督类学习算法，对其提供支持的样本，都是标记好的样本；

2：算法角度的实现：

from numpy import *
def createDataSet():
    group = array([[1.0,1.1 ],[1.0,1.0],[0,0], [0,0.1]])
    labels = ['A','A','B','B']
    return group,labels
group,labels = createDataSet()

该段代码，负责样本集合的生成，浅显易懂，不多说：

这里，给出的样本非常简单，而实际上来说，我们在使用该算法的过程中，样本都会比较复杂，属性也会比较多，这些在本文不予涉及，生成样本的方式是多种多样的，我们这里要做的，是直接对合规的样本进行操作：

接下来是主题逻辑：

def classify0(intX,dataSet,labels,k):
    # 获取样本的总数，比如样本是N行
    dataSetSize = dataSet.shape[0]
    # tile方式，会生成N行与待测样本完全一致的数据集
    tiles  =  tile(intX, (dataSetSize,1))
    # 取差值，这就是python的简便之处了，一句话求取出所有的(x-x1)和(y-y1)
    diffMat =  tiles - dataSet
    
    # 对于所有的元素进行平方操作
    sqDiffMat = diffMat ** 2
    
    # 平方操作加起和，得到距离
    sqDistances = sqDiffMat.sum(axis=1)
    # 距离排序
    sortedDistIndicies = sqDistances.argsort()
    
    # 取出距离最小的K个点，记录标签
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0)+1
    
    # 查看这K个点中，哪种类别比较多
    sortedClassCount = sorted(classCount.iteritems(),key = operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0];

总体思想就是这样：很简单，很好理解，用一句古话说就是：近朱者赤，近墨者黑。

3：我对该算法的一些理解：

KNN算是机器学习之初诞生的一些老算法了，其性能还算不错，当然同时也是有缺陷的：

首先，其缺陷在于需要每次样本都要遍历一次所有的数据，这个计算量相对比较大，如果样本集合已经有百万，甚至是千万那么大，我们每次还要为一个样本去计算数百万，甚至是数千万次，投入和产出明显是不成正比的：

个人感觉，这里其实可以用堆排序的方法来做优化，设置一个K元素大小的最小堆，来尽可能减小算法的复杂度：

其二，这里的K设置是很关键的，假如说K太小，可能很少的元素就决定了新样例的样本，这是不合理的，如果K太大，会导致计算和排序比较麻烦，所以需要从中调和：

其三，如果某个属性值本身比较大，可能会导致在距离计算的时候，导致该属性占据的份额比较大，这是有问题的，所以可通过归一化进行处理，将数据的计算都整合在0-1的范围之内，方便我们的计算：

KNN-机器学习实战系列（一）

猜你喜欢