西瓜书 第2章 模型评估与选择

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011322987/article/details/86099306

鸟哥的笔记总结的很好直接跳转链接

1 什么是p问题,np问题,np完全问题,np难问题

(https://zhidao.baidu.com/question/2267363653752475308.html)
P问题:就是在多项式时间内可以算出答案的问题,也就是说可以在一个比较短的时间内可以算出答案的问题。
NP问题:就是可以(多项式时间内)短时间内验证一个答案正确性的问题。
NP完全问题:第一个条件,可以这么说,就是你如果能解决A问题,则通过A问题可以解决B问题,那么A问题比B问题复杂,当所有的问题都可以通过A问题的解决而解决的话,那么A问题就可以称为NP完全问题,第二个条件,就是A问题属于NP问题。
NP难问题:这个就是NP完全问题中满足第一个条件并且不满足第二个条件的问题。

模型选择

选择泛化误差最小的模型。需使用测试集来测试模型对新样本的判别能力,以测试集上的测试误差,来近似泛化误差。

  • 留出法(hold-out)
    大约2/3~4/5的样本用于训练,剩余的用于测试。
  • 交叉验证法(cross validation)
    如 k折交叉验证。k=5,10,20
    特别地当k = m(样本数)时,称为留一法。
  • 自助采样法(bootstrapping)/可重复采样/可放回采样
    放回抽样,0.368 用于测试,这样的测试结果称为“包外估计”。
    适用:数据集较小

模型调参

训练集,测试集,验证集比例怎么确定? 8:1:1
调参有啥工具和经验技巧?
自动调参:O2Osklearn工具(配置复杂)
手动调参:grid search(网格搜索,暴力)、随机搜素、启发式搜索等

查准率P,查全率R,F1


综合P-R值的F1度量: 1 F 1 = 1 2 ( 1 P + 1 R ) \frac{1}{F_1}=\frac{1}{2}\cdot \bigg({\frac{1}{P}}+{\frac{1}{R}}\bigg)
平衡点BEP:即P=R时的取值。谁大谁优秀!!

ROC 与 AUC

AUC(Area Under ROC Curve):ROC曲线下的面积。面积越大越好。

猜你喜欢

转载自blog.csdn.net/u011322987/article/details/86099306
今日推荐