美团机器学习实践(1)通用流程

目录

第1章 问题建模

1.1 评估指标

1.2 样本选择

1.3 交叉验证

第2章 特征工程

2.1 特征提取

2.2 特征选择

第3章 常用模型

第4章  模型融合

4.1 理论分析

扫描二维码关注公众号,回复: 6656639 查看本文章

4.2 融合方法


讲述机器学习解决实际问题的通用流程:

如何分析问题

如何进行特征工程 、常见模型的比较和选择

如何进行效果评测

各类机器学习竞赛中常用的模型融合技巧

第1章 问题建模

1.1 评估指标

分类指标:精确率和召回率,ROC与AUC

回归指标:MAE平均绝对误差,MAPE平均绝对百分误差,RMSE均方根误差

排序指标:MAP平均准确率均值,NDCG归一化

1.2 样本选择

样本选择的3个好处:

(1)数据量太大:浪费资源;太少:预测不准

(2)相关性低的数据对预测没有作用

(3)去除噪声数据

样本选择的方法:去噪,采样;原型选择,训练集

1.2.1 数据去噪

噪声数据:比如电商特征值不对,或者图像分类的标注不对

q的应用:图像中,可以通过开放接口筛选,再通过人工筛;电商中,行为数据设置可用的阈值

1.2.2 采样

5种采样方法

(1)无放回简单随机抽样

(2)有放回简单抽样

(3)平衡采样:根据预定义比例,对样本重新组合。

比如正100,负10000,预定义比例1:10。则上采样为:正复制10倍;负采样为:删除负剩下1000

(4)整群采样:样本分成N个cluster,再随机抽s<=N个

(5)分层采样:正负样本分别采样x%,保证正负样本比例不变。

1.2.3 原型选择和训练集选择

1.3 交叉验证

留出法、k折交叉验证、自助法

第2章 特征工程

数据和特征决定了机器学习算法的上限,而模型和算法只是 不断逼近这个上限而已。

基于大量数据的简单模型胜于基于少量数据的复杂模型 。

更 多的数据胜于聪明 的算法,而好 的数据胜于多的数据 。

2.1 特征提取

特征工程的第一步:理解业务数据和业务逻辑

常见的统计特征:次数,比率,统计量特征(均值,峰值,分位数等)

2.1.1 探索性数据分析

EDA:Exploratory Data Analysis探索性数据分析。分为可视化、定量分析两种。

2.1.2 数值特征

处理方法:截断、二值化、分桶(分值/分位数)、缩放、缺失值处理(补/忽略)、

特征交叉(组合,加减乘除;FM/FFM:自动进行特征交叉组合)

非线性编码(多项式核等)、行统计量

2.1.3 类别特征

自然数编码、独热编码、分层编码(比如身份证等)、散列编码、计数编码、计数排名编码、目标编码

2.1.4 时间特征

2.1.5 空间特征

2.1.6 文本特征

语料构建、文本清洗、分词、词袋/N-Gram、Skip-Gram等

2.2 特征选择

特征选择的目的:简化模型(使模型更易理解)、改善性能(节省存储和计算开销)、改善通用性,降低过拟合风险

特征选择的过程:产生过程,评价函数,停止准则,验证过程

特征选择的方法:过滤方法,封装方法,嵌入方法

第3章 常用模型

3.1 逻辑回归

3.2 场感知因子分解机

3.3 梯度提升树

第4章  模型融合

4.1 理论分析

融合收益,模型误差-分歧分解,模型多样性度量,多样性增强

4.2 融合方法

平均法,投票法,bagging,stacking

猜你喜欢

转载自blog.csdn.net/weixin_41770169/article/details/93229577