7月5号线下课：集成学习（杨老师，流水账式，没整理） - 代码天地

7月5号线下课：集成学习（杨老师，流水账式，没整理）

其他 2020-04-24 22:07:42 阅读次数: 0

同质集成：基学习器
异质集成：组建学习器

Boosting：串行学习，bias比较小
Bagging：并行学习，variance比较小

stacking：投票方法是学出来的，学：其实就是迭代，纠错，递归，

集成学习
一 wide（逻辑回归）&deep learning（深度学习）（Google）：
wide：记忆性
Generalization：泛化性
平衡相关性和多样性

特征工程一定是层次化的

（从术悟道，从道建术）

1.1）Google colab:
https://colab.research.google.com/
google免费提供的计算环境（GPU），可以在上面训练自己的深度学习模型，需要翻墙。
可以用Google的云服务来下载数据，再拖到本地（免费）。

2）视频链接：https://www.youtube.com/watch?v=NV1tkZ9Lq48

3）Google机器学习免费课：https://developers.google.com/machine-learning/crash-course/

4）Google推荐系统免费课：
https://developers.google.com/machine-learning/recommendation/

5）将深度学习的视频https://www.youtube.com/watch?v=xki61j7z-30

GBDT:boosting
Google发表的所有文章都值得看，只看有代码的文章

工程上的技巧（trick）,容易把理论知识落地

二 GBDT +LR (Facebook)

Paper: Practical Lessons from Predicting Clicks on Ads at Facebook

每个叶子节点都是一个稀疏特征。

LR模型的特征组合很关键，GBDT可以学习出特征组合。
GBDT：特征组合（串行，不能做分布式训练）
LR：分布式训练

Calibration：校准平均预测CTR与经验CTR的比值。
dense embedding layer

在这里插入图片描述

集成学习
https://zhuanlan.zhihu.com/p/39920405

GBDT+LR
Facebook的paper：http://quinonero.net/Publications/predicting-clicks-facebook.pdf

https://mp.weixin.qq.com/s/ERGxFn44jp0lKFELZ9oB2Q

https://www.jianshu.com/p/96173f2c2fb4

经典比赛赏析
https://github.com/ycjuan/kaggle-2014-criteo

从大到小排序后高频的特征
特征工程：精细化，层次化

把很稀疏的特征嵌入到较低维度的空间中。

embedding：在笛卡尔坐标中，两个量是正交的，但在某个space中，是有相关性，或者有某些关系的。或者语义相关性

word2vec。

Marina-ju

发布了113 篇原创文章 · 获赞 51 · 访问量 17万+

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_43055882/article/details/94963422

7月5号线下课：集成学习（杨老师，流水账式，没整理）

seven老师直播课笔记（7月9号，流水账式，没整理）

学习流水账

[2018年5月] 流水账之5月

6月24 七月在线直播课笔记（流水账式，非技术，没归类）

10月18号蒟蒻的流水账

10月20号蒟蒻的流水账

10月7日蒟蒻的流水账

10月5日蒟蒻的流水账

五月流水账

六月流水账

七月流水账

八月流水账

九月流水账

一月流水账

lua流水账5：string

ios学习流水账3

ios学习流水账2

ios学习流水账1

流水账

shell 流水账

310719流水账

290719流水账

070819流水账

300719流水账

080819流水账

130819流水账

260719流水账

090819流水账

140819流水账

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)