特征工程

模型选择

交叉验证

模型参数含义

Gradient Boosting Tree

特征工程

模型选择

选择模型后，在一些超参数，需要选择不同的值

线性回归

特征的次数可以变化

交叉验证

模型参数含义

模型效果优化

模型状态

左边欠拟合，中间刚合适，右边边拟合

o  小笑话两则

一個非洲酋長到倫敦訪問，一群記者在機場截住了他。
早上好，酋長先生“ ，其中一人問道：你的路途舒適嗎？
酋長發出了一連串刺耳的聲音哄、哼、啊、吱、嘶嘶，
然后用純正的英語說道：是的，非常地舒適。
那麼！您准備在這里待多久？
他發出了同樣的一連串噪音，然後答：大約三星期，我想。
酋長，告訴我，你是在哪學的這樣流利的英語？迷惑不解的記者問。
又是一陣哄、吭、啊、吱、嘶嘶聲，酋長說：從短波收音機裡。

欠拟合：觉得自己将来的白马王子又会赚钱又有颜
过拟合：遇到几个渣男就得出结论“男人没一个好东西”
欠拟合： “ 你太天真了”
过拟合： “你想太多了”

模型状态验证工具：学习曲线

欠拟合，过拟合，正适合

都很低可以欠拟合

训练集准确度很高但在交叉验证集上不好-----过拟合

不同模型状态处理

  过拟合
Ø  找更多的数据来学习--可以缓解过拟合不能避免
Ø  增大正则化系数---不要太骄傲
Ø  减少特征个数(不是太推荐)
注意：不要以为降维可以解决过拟合问题

  欠拟合
Ø  找更多的特征----将一次变为二次
Ø  减小正则化系数

线性模型的权重分析

  线性或者线性kernel的model
Ø  Linear Regression
Ø  Logistic Regression
Ø  LinearSVM
Ø  …
  对权重绝对值高/低的特征
Ø  做更细化的工作
Ø  特征组合

特征前的系数有具体的物理意义，则对应其特征影响比较，可以对其做一些处理，如更加细化这个维度，或通过组合或统计上的处理

Bad-case分析

  分类问题
Ø  哪些训练样本分错了？
Ø  我们哪部分特征使得它做了这个判定？
Ø  这些bad cases有没有共性
Ø  是否有还没挖掘的特性
Ø  …
  回归问题
Ø  哪些样本预测结果差距大，为什么？
Ø 参考分类问题的思路

模型融合

ü  简单说来，我们信奉2条信条

  群众的力量是伟大的，集体智慧是惊人的

Ø  Bagging
Ø  随机森林/Random forest

  一万小时定律

Ø  Adaboost
Ø  逐步增强树/Gradient Boosting Tree

Bagging

bagging可以减少波动

最上面过拟合了

Adaboost

  考得不好的原因是什么？
Ø  还不够努力，练习题要多次学习
l  重复迭代和训练
Ø  时间分配要合理，要多练习之前做错的题
l  每次分配给分错的样本更高的权重
Ø  我不聪明，但是脚踏实地，用最简单的知识不断积累，成为专家
l  最简单的分类器的叠加

符号变大了，注重于分错的样本，将其权重变大

颜色深则每次能分对

Gradient Boosting Tree

右边是没有拟合上的点集，残差

原始的值与样本点的差值

差值上学习出一条线，然后将两者相加，以依类推

七月算法机器学习 7 工作流程与模型调优

特征工程

模型选择

交叉验证

模型参数含义

模型效果优化

模型状态

o  小笑话两则

模型状态验证工具：学习曲线

不同模型状态处理

线性模型的权重分析

Bad-case分析