6月24 七月在线直播课笔记（流水账式，非技术，没归类）

仅对老师课堂上说的注意点之类的做了记录：
1.一定要看case，以便了解模型预估咋哪里出现了什么问题导致AUC降低
2.所有的问题尽可能转化为分类问题，少去做回归
例如：大于0.5，标为1，反之，标为0.
连续数值的label转为离散类别来做。

3.无监督学习
K-means：文本聚类
plsa
lda

4.PCA：降维，选择前面n个feature。
算法工程师：
工业界有数据作弊的情况（刷单，设定规则过滤掉一些数据）

5.数据分层，进行拆分，思考是否需要针对性的设计特征
tensorflow+python
尽量复现算法
Ensemble:有效果
模型的评估：AUC，工业界看的就是一个序
sklearn中的函数
transform：把数据变换成可训练的数据

6.用来预测的数据往前推1周，或1月。因为人的行为是按照周期分布的。（用前一周或一月的数据来预测本周或本月的数据）
抽特征超级重要。

7.除了监督学习，其余两个学习几乎可以说是大坑
强化学习是一个大坑

人生中的第一个模型lr（逻辑回归），人生中第二个模型gbdt，人生中第三个模型xgbdt，xgbdt一定要用的，第四个模型DNN。
树类模型是一定要去学的。

一，大多数paper的代码公布在GitHub上。
而，找论人的地方：
1.nips
2.recsys
3.aaai（较水）
4.cvpr(牛逼)
5.ijcai(较水)

feature对预测能力扮演着很重要的作用，learning rate schema and data sampling improve the model slightly.
抖音：播放完成度来做的
数据不平衡的解决方式：uniform sampling
大部分广告都是LR，DNN来做

推荐系统重点是召回和排序（有部分invending）
推荐的问题：
冷启动问题？去热问题？
计算机视觉：CNN一定得会

专注于算法：能不能理解，能不能get到点
所有的模型自己训一遍。

每一行都有过剩的，也有招不到人的，重点是谁牛逼。

数据结构基础的排序要熟。
推荐系统使用深度学习的内容比较多，机器学习只是基础。
懂不懂才是关键。
人必须有自己的主动性，尽自己所能
在这个信息社会，无知是一种选择，如果你什么都听信权威专家并照做不误，等于把所有的人身权利都交给了他
别再畏首畏尾，自己承担起自己的责任

发布了113 篇原创文章 · 获赞 51 · 访问量 17万+

私信关注