7月5号线下课:集成学习(杨老师,流水账式,没整理)

同质集成:基学习器
异质集成:组建学习器

Boosting:串行学习,bias比较小
Bagging:并行学习,variance比较小

stacking:投票方法是学出来的,学:其实就是迭代,纠错,递归,

集成学习
一 wide(逻辑回归)&deep learning(深度学习)(Google):
wide:记忆性
Generalization:泛化性
平衡相关性和多样性

特征工程一定是层次化的

(从术悟道,从道建术)

1.1)Google colab:
https://colab.research.google.com/
google免费提供的计算环境(GPU),可以在上面训练自己的深度学习模型,需要翻墙。
可以用Google的云服务来下载数据,再拖到本地(免费)。

2)视频链接:https://www.youtube.com/watch?v=NV1tkZ9Lq48

3)Google机器学习免费课:https://developers.google.com/machine-learning/crash-course/

4)Google推荐系统免费课:
https://developers.google.com/machine-learning/recommendation/

5)将深度学习的视频https://www.youtube.com/watch?v=xki61j7z-30

GBDT:boosting
Google发表的所有文章都值得看,只看有代码的文章

工程上的技巧(trick),容易把理论知识落地

二 GBDT +LR (Facebook)

Paper: Practical Lessons from Predicting Clicks on Ads at Facebook

每个叶子节点都是一个稀疏特征。

LR模型的特征组合很关键,GBDT可以学习出特征组合。
GBDT:特征组合(串行,不能做分布式训练)
LR:分布式训练

Calibration:校准平均预测CTR与经验CTR的比值。
dense embedding layer

在这里插入图片描述

集成学习
https://zhuanlan.zhihu.com/p/39920405

GBDT+LR
Facebook的paper:http://quinonero.net/Publications/predicting-clicks-facebook.pdf

https://mp.weixin.qq.com/s/ERGxFn44jp0lKFELZ9oB2Q

https://www.jianshu.com/p/96173f2c2fb4

经典比赛赏析
https://github.com/ycjuan/kaggle-2014-criteo

从大到小排序后高频的特征
特征工程:精细化,层次化

把很稀疏的特征嵌入到较低维度的空间中。

embedding:在笛卡尔坐标中,两个量是正交的,但在某个space中,是有相关性,或者有某些关系的。或者语义相关性

word2vec。

发布了113 篇原创文章 · 获赞 51 · 访问量 17万+

猜你喜欢

转载自blog.csdn.net/weixin_43055882/article/details/94963422