机器学习系列--KNN分类算法 - 代码天地

机器学习系列--KNN分类算法

其他 2018-09-11 13:19:17 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_19968255/article/details/81569457

一.机器学习简介

机器学习（Machine Learning, ML）是一门多领域交叉学科，涉及概率论，统计学，逼近论，凸分析、算法复杂度理论等多门学科。专门研究计算机怎么模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。目前，世界上共有几百种不同的机器学习算法。

二.类别

1.分类

给定一堆样本数据，以及这些数据所属的类别标签，通过算法来对预测新数据的类别。有先验知识。

常用分类算法：k-最近邻法(k-nearest neighbor，kNN)，决策树分类法，朴素贝叶斯分类算法(native Bayesian classifier)、支持向量机(SVM)的分类器，神经网络法，模糊分类法等等。

2.聚类

事先并不知道一堆数据可以被划分到哪些类，通过算法来发现数据之间的相似性，从而将相似的数据划入相应的类，简单地说就是把相似的东西分到一组。没有先验知识。

常用聚类算法： K均值(K-means clustering)聚类算法、K-MEDOIDS算法、CLARANS算法；BIRCH算法、CURE算法、CHAMELEON算法等；基于密度的方法：DBSCAN算法、OPTICS算法、DENCLUE算法等；基于网格的方法：STING算法、CLIQUE算法、WAVE-CLUSTER算法；

3.监督学习与无监督学习

监督学习，无监督学习，半监督学习。

监督式学习技术需要关于结果的先验知识。

无监督学习技术不需要先验知识。

三.KNN分类算法

K最近邻（k-Nearest Neighbor，KNN），由你的邻居来推断出你的类别。

机器学习，算法本身不是最难的，最难的是：1.数学建模：把业务中的特性抽象成向量的过程；2.选取适合模型得数据样本。

要点：

步骤：

1.距离：计算它与训练集中每个对象的距离

二维距离

2.找邻居：固定距离最近的k个训练对象，作为测试对象的近邻

3.做分类：根据这个k个近邻归属的主要类别，来对测试对象分类：

k太小，分类结果易受到噪声点影响；k太大，近邻中又可能包含太多其它类别的点。对距离加权，可以降低k值设定的影响。k值通常是采用交叉检验来确定（以k=1为基准）
经验规则：k一般低于训练样本数的平方根。

相似度衡量：1.距离近，属于一个分类可能性大，但距离不能代表一切，有些数据的相似度衡量并不适合用距离。2.相似度衡量方法：包括欧式距离、夹角余弦等。简单应用中，一般使用欧氏距离，但对于文本分类来说，使用余弦(cosine)来计算相似度就比欧式(Euclidean)距离更合适。

类别判断：

简单投票法：少数服从多数，近邻中哪个类别的点最多就分为该类。

加权投票法：根据距离的远近，对近邻的投票进行加权，距离越近则权重越大（权重为距离平方的倒数）投票法没有考虑近邻的距离的远近，距离更近的近邻也许更应该决定最终的分类。加权更靠谱一些，根据业务和数据特性来探索。

不足之处：

样本不平衡：如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。改善方法：对此可以采用权值的方法（和该样本距离小的邻居权值大）来改进。

计算量较大：因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。改善方法：事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。该方法比较适用于样本容量比较大的类域的分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。

距离衡量：高维度对距离衡量的影响：变量数越多，欧式距离区分能力越差。变量值域对距离的影响：值域越大的变量常常会在距离计算中占据主导作用，因此应先对变量进行标准化（归一化）。

性能：kNN是一种懒惰算法。（笛卡尔积）扫描全部样本计算距离。提高计算效率：压缩训练样本，浓缩技术，编辑技术（清理数据）。

猜你喜欢

转载自blog.csdn.net/qq_19968255/article/details/81569457

机器学习系列--KNN分类算法

机器学习系列--KNN分类算法例子

机器学习算法--KNN近邻分类算法

Python机器学习--分类算法--KNN算法

机器学习算法基础--KNN分类算法

机器学习实战——KNN分类算法

机器学习实战 -- kNN分类算法

【机器学习实战】—KNN分类算法

Python机器学习(3)——KNN分类算法

机器学习：KNN（K 近邻）分类算法

机器学习-KNN分类算法（下）

机器学习-KNN分类算法（上）

机器学习##分类算法1-knn

机器学习系列算法1：KNN

机器学习系列(5) KNN算法

python机器学习手写算法系列——KNN分类

机器学习--分类算法--KNN算法理论

机器学习入门（五）：分类算法——KNN算法

机器学习KNN算法分类kaggle猫狗

机器学习之KNN算法实现图像分类

机器学习（二）k-近邻分类算法（kNN）

机器学习之KNN最邻近分类算法

【传统机器学习】之KNN分类算法（一）

机器学习之分类算法KNN（K-近邻）

机器学习-KNN算法

机器学习算法·KNN

机器学习——KNN算法

机器学习KNN算法

机器学习算法 -- KNN

机器学习----KNN算法

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)