机器学习各种算法的理解（不断更新） - 代码天地

机器学习各种算法的理解（不断更新）

其他 2018-07-16 16:45:47 阅读次数: 0

1、K-近邻算法

刚刚把K-近邻算法整理了一下，下面说一下我对它的理解

（1）优点

简单有效：效果很好（对于适用这个算法的问题来说），而且原理很简单，没有什么困难的数学公式来推导理解
不需要很长时间的训练：只要有数据集就可以直接运行，不需要训练出模型
是一种online算法：也就是它是一种在线算法，新数据可以直接加入数据集而不必重新训练（没有它本身就没有模型可言）

（2）缺点

首先，这个算法不是常规的机器学习算法，因为它没有“学习过程”，一般的机器学习算法是需要通过训练数据来学习得到一个模型的，但是KNN没有这个过程，虽然它也有训练集，这就导致它每次预测新的样本，就要将所有训练集都保存到内存中，然后一个个比较，如果你的数据集非常大，这就非常占据内存资源了（一般来说数据集越大，准确度越高）
无法给出任何数据的基础结构信息，因此我们也无法知晓平均实例样本和典型实例样本具有什么特征，换句话来说，让你区分一个人是欧洲人还是中国人，很好区分，但是让你区分中国人和韩国人，有时候就比较困难，前面那个区分是典型的（一眼就可以看出来，这叫特征明显），而后一个就不太明显了（这就是不典型了）
没有解决样本不平衡问题（也就是有些类别样本数量很多，有些样本数量很少），遇到这种问题，它的预测偏差会比较大
K值大小的选择，这个要根据你的数据集样本和种类的分配，还有类别的不同来决定，随着数据集的变化可能会发生变化，有时候要不断筛选才可以得出

（3）应用领域

理论上，只要数据可以转化成向量，就可以用KNN算法，只是效果好坏不一样罢了，这里列举的都是效果比较好的：

文本分类、模式识别、聚类分析、多分类领域

2、决策树

（1）优点：

决策树具有一般机器学习算法的优点，那就是一劳永逸，一旦获得一棵决策树，就不需要再用到原来的数据集了（当然是基于这棵决策树的准确率很不错的情况），下次预测一个样本，只要将其放入决策树中，就可以轻松得到分类或者回归结果
非常容易理解，因为决策树在我看来更像是基于规则的分类，在形式上比起K近邻算法要容易理解，可解释性也很强，决策树模型可以想象，在你大脑中可以轻易复现出来，可以说决策树是一个白盒模型，不像神经网络那样更偏向于黑盒模型
需要的数据量相对而言不大，其他技术需要的数据量一般要大很多，而且HIA需要去除不完整数据，但是决策树不需要（专门有针对不完整数据的策略）
决策树算法的时间复杂度（即预测数据）是用于训练决策树的数据点的对数
可以处理的问题领域很广（而且准确率相对而言也是很高的），而其他算法大都是针对某一领域的数据集具有较高的准确率
能够处理多输出问题

（2）缺点

决策树的结果很不稳定，可能数据集一个小的变化，就会导致生成一棵完全不同的决策树（可以使用集成决策树来解决）
容易造成过拟合现象，也就是枝叶太过茂盛，节点过多（可以采用剪枝策略来解决）
针对最优决策树来说，决策树实际上是一个启发式算法，如贪婪算法，寻求在每个节点上的局部最优决策，这样的算法不能保证返回全局最优决策树
树的每次分叉都减少了数据集，有意地创造分裂将会潜在地引入偏差（bias）
针对连续值属性来说，划分的选择是一个大问题，也就是怎么改变区间大小，比如年龄从0-200，你可以划分为1-10,11-20,这时候区间大小为10，如果你划分成1-20,21-40，这时候区间大小是20，但是你应该怎么划分呢，如果一个属性还好说，但是如果很多属性都是连续的，那么就有些不好处理了
对有时间顺序的数据，需要很多预处理的工作

（3）决策树们

不同种类的决策树，可以参考：决策树有哪些特性

猜你喜欢

转载自blog.csdn.net/yuangan1529/article/details/80848622

机器学习各种算法的理解（不断更新）

谈谈自己对机器学习如何学习以及未来职业方向的理解（不断更新中）

spring理解(不断更新。。。。。。)

算法收集（不断更新）

机器学习面试题总结（不断更新）

机器学习面试问题汇总（不断更新）

不断更新 -- 学习资料

学习笔记，不断更新。

【不断更新】JavaScript 各种 demo

必会的算法题（不断更新）

KVM学习笔记不断更新中

【收藏】学习资源汇总（不断更新...）

学习心得篇-不断更新

netty学习笔记【不断更新】

SSH学习日志『不断更新』

学习java的tips（不断更新）

spring框架④——学习资源（不断更新）

学习linux笔记（不断更新）

LINQ学习笔记[不断更新中]

linux命令学习不断更新

AD学习过程笔记（不断更新）

前端学习笔记（不断更新中）

【面试】经验 & 学习（不断更新中）

【Linux-命令学习不断更新】

【Kaggle从入门到放弃】（03）：python机器学习学习路径（附资源）不断更新。。。

正在学习的比较详细的机器学习教程（不断更新）

本地搭建hadoop集群-各种报错，不断更新

eclipse的各种神奇问题网址大全(不断更新)

各种工程软件下载指南（不断更新）

机器学习生成数据常用Numpy函数介绍(不断更新中)

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)