6月24 七月在线直播课笔记(流水账式,非技术,没归类)

仅对老师课堂上说的注意点之类的做了记录:
1.一定要看case,以便了解模型预估咋哪里出现了什么问题导致AUC降低
2.所有的问题尽可能转化为分类问题,少去做回归
例如:大于0.5,标为1,反之,标为0.
连续数值的label转为离散类别来做。

3.无监督学习
K-means:文本聚类
plsa
lda

4.PCA:降维,选择前面n个feature。
算法工程师:
工业界有数据作弊的情况(刷单,设定规则过滤掉一些数据)

5.数据分层,进行拆分,思考是否需要针对性的设计特征
tensorflow+python
尽量复现算法
Ensemble:有效果
模型的评估:AUC,工业界看的就是一个序
sklearn中的函数
transform:把数据变换成可训练的数据

6.用来预测的数据往前推1周,或1月。因为人的行为是按照周期分布的。(用前一周或一月的数据来预测本周或本月的数据)
抽特征超级重要。

7.除了监督学习,其余两个学习几乎可以说是大坑
强化学习是一个大坑

人生中的第一个模型lr(逻辑回归 ),人生中第二个模型gbdt,人生中第三个模型xgbdt,xgbdt一定要用的,第四个模型DNN。
树类模型是一定要去学的。

一,大多数paper的代码公布在GitHub上。
而,找论人的地方:
1.nips
2.recsys
3.aaai(较水)
4.cvpr(牛逼)
5.ijcai(较水)

feature对预测能力扮演着很重要的作用,learning rate schema and data sampling improve the model slightly.
抖音:播放完成度来做的
数据不平衡的解决方式:uniform sampling
大部分广告都是LR,DNN来做

推荐系统重点是召回和排序(有部分invending)
推荐的问题:
冷启动问题?去热问题?
计算机视觉:CNN一定得会

专注于算法:能不能理解,能不能get到点
所有的模型自己训一遍。

每一行都有过剩的,也有招不到人的,重点是谁牛逼。

数据结构基础的排序要熟。
推荐系统使用深度学习的内容比较多,机器学习只是基础。
懂不懂才是关键。
人必须有自己的主动性,尽自己所能
在这个信息社会,无知是一种选择,如果你什么都听信权威专家并照做不误,等于把所有的人身权利都交给了他
别再畏首畏尾,自己承担起自己的责任

发布了113 篇原创文章 · 获赞 51 · 访问量 17万+

猜你喜欢

转载自blog.csdn.net/weixin_43055882/article/details/93536067