第四十八篇入门机器学习——超参数问题 - 代码天地

第四十八篇入门机器学习——超参数问题

其他 2018-07-18 21:39:46 阅读次数: 0

No.1. kNN算法中需要传入一个参数k，这个参数k的作用之前提到过，它就是指距离待预测数据最近的前k个数据，这个参数k的具体大小应该如何选择？超参数问题就是描述的这类问题。

No.2. 所谓"超参数"，就是指在算法运行之前需要进行指定的参数；与"超参数"向对应的是"模型参数"，"模型参数"是在算法运行过程中学习得到的参数。需要提的一点是，kNN算法中并没有模型参数，但是，kNN算法中的参数k，是典型的超参数。机器学习算法工程师的一项重要工作就是"调参"，通常来讲，调参所要调的就是超参数。

No.3. 寻找好的超参数的方法

主要有三种方法：根据相关领域的知识来确定超参数；根据经验数值来确定超参数；实验搜索确定超参数

No.4. 下面我们通过实验搜索来确定超参数

实验前的准备

寻找参数的具体逻辑

No.5. kNN近邻算法中还有一个比较隐秘的超参数，即待预测点与训练数据集中每个点的距离，当最终的k个点里面每种类型的点数相同的情况下，我们就必须要考虑哪种类型的点与待预测点更接近；即使在每种类型的点数不同的情况下，如果点数多的类型距离待预测点都相对较远，我们也有必要考虑加入距离权重。

考虑距离权重的情况下，再次进行参数寻找

从运行结果来看，对于这个数据集，在不考虑距离、参数k为4的情况下，准确性更高

No.6. 我们之前计算待预测点与训练数据集中的每个点的距离，使用的都是"欧拉距离"，即下图中参数p为2时的情况；当这个参数p的值为1时，这个距离称之为"曼哈顿距离"；这个带参数p的距离公式称之为"明可夫斯基距离"，这里的参数p也是一个"超参数"，我们同样可以寻找最佳参数p

将参数p添加到业务逻辑中：

从运行结果来看，考虑距离权重的情况下，使用欧拉距离，并选择k值为3会使准确性更高

No.7. 上面的参数寻找过程存在一个问题：有些参数之间存在关联，我们想要寻找更佳的参数p的话，weights参数的值就必须选择为"distance"，否则传入的参数p就会无效，sklearn提供了一种更好的参数搜索方式——网格搜索"Grid Search"

No.8. 在使用Grid Search之前，首先要定义我们的参数

进行参数搜索：

从上面搜索的结果来看，在考虑距离权重，且用于距离计算的参数p为3，k值为3的情况下准确性更好

No.9. 搜索得到最佳参数之后，我们需要使用这些最佳参数所以对应的分类器，来对测试数据进行预测

查看预测的准确率：

No.10. Grid Search中还有一些其它的参数，"n_jobs"用于指定进行搜索使用的CPU核心数，该参数设置为-1时会使用CPU的所有核心；"verbose"用于显示搜索的过程，指定的数值越大，显示的信息越详细

猜你喜欢

转载自www.cnblogs.com/xuezou/p/9332650.html

第四十八篇入门机器学习——超参数问题

【WPF学习】第四十八章理解WPF动画

【Python入门第四十八天】Python丨NumPy 数组连接

C++笔记第四十八课同名覆盖引发的问题---狄泰学院

python学习第四十八天json模块与pickle模块差异

Python学习笔记第四十八天(NumPy 副本和视图)

第一阶段：JAVA 快速入门（第四十八课：JAVA_if-else双选择结构）

《第四十八周》

第四十八章

第四十八篇网络编程基础

第四十八篇安规测试

Python之路【第四十八篇】:django日更

第四十八象辛亥

第四十八天

java基础知识-第四十八篇-if选择结构嵌套

Spring成神之路第四十八篇：@Transaction 事务源码解析

第四十八章：Linux文件系统

第四十八章：django restfrom work (1)

第四十八题 UVA1347 旅行 Tour

第四十八节 jQuery之bootstrap表单

LeetCode第四十八题—Python实现

居家第四十八天的思考

iOS 摸鱼周报第四十八期

第四十八章 Unity 布局（下）

C++学习第四十四篇

学习四十八

第四十五篇入门机器学习——数据加载和简单的数据探索

第四十六篇入门机器学习——kNN - k近邻算法（k-Nearest Neighbors）

第四十九篇入门机器学习——数据归一化（Feature Scaling）

Jmeter(四十八) - 从入门到精通高级篇 - Jmeter监控服务器性能（详解教程）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)