机器学习解决问题的流程

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/dingming001/article/details/81429161
了解场景和目标
对要解决的问题做具体分析,理解业务场景,这种场景中的常用模型。
了解评估准则
最终的目标是从准确率还是召回率方向(打个比方)做为模型的评估标准
认识数据
了解数据是否平衡,类型,结构,关联关系
数据预处理(清洗,调权)
类型转化,缺失值处理,标准化或者归一化,one-hot
数据本身的质量优于模型的选择,只是数据足够好,一个简单模型也可以得到很好的效果
特征工程
从什么样的角度去构建模型
另外一篇文章介绍
模型调参
大家都用一样的模型,你的效果没有别人的好,数据处理的差不多的情况下,一般就是你模型参数没有选择好的问题了。
模型状态分析
交叉验证
过拟合
欠拟合
学习曲线
模型融合
一、投票机制
bagging(对不同的分类器的结果进行投票)
Random Forest(1.随机选择k个属性,找到最佳分割属性建立决策树2.建立多颗决策树3.投票)
二、多模型得到的结果进行处理
stacking
三、逐步逼近
Adaboost(1.对前一个分类器分错的样本进行加权,训练下一个分类器。2.多个弱分类器组成了一个强分类器)调样本的权重
Gradient Boosting Tree(1.下一颗树拟合上颗树的残差。2.逐步逼近阀值)调Loss Function
XGBoost(原理与GBDT类似,很多地方做了更细节的处理)
核心思路
拿到数据后怎么了解数据(可视化)
选择最贴切的机器学习算法
定位模型状态(过/欠拟合)以及解决方法
大量极的数据的特征分析与可视化
各种损失函数(loss function)的优缺点及如何选择

猜你喜欢

转载自blog.csdn.net/dingming001/article/details/81429161
今日推荐