2018/11/5总结回顾

昨天白天写了一天的分类评价准则，感觉又在赶作业。晚上看了一点线性回归的东西。基于不同阈值下的混淆矩阵我们可以得到多个评价准则。

抄作业：

ROC是TPR和FPR的随阈值变化得到的曲线。阈值越小，TPR和FPR越大，阈值越大，TPR和FPR越小。如果在阈值大的时候，FPR很小，但TPR很大，这表示分类正确，没有把正常人预测成病人，而把病人都预测对了。当随机预测时，TPR和FPR是一条y=x的曲线，ROC越向正Y轴偏移，离baseline越远，这个模型也越好，这时ROC曲线下的面积AUC越大。

Lift表示的是precision/pi1,既使用该模型顾客的回复率与不使用该模型顾客的回复率的比值。Lift chart是lift与depth随阈值不同的曲线，depth是预测为正例占总体的比率。其实这条曲线表示的是将预测score自大到小排列，令前10%为正例，既给评分为前10%的人发传单，比值为4。令前20%为正例，既给评分为前20%的人发传单，比值为3。随着阈值减小，precision会减少，lift会下降。

Gain= PV+=precision=lift*pi1. 与lift相同，只是值不同。

KS曲线是 KS= TPR -FPR在不同阈值下的点组成的曲线。KS最大的点代表在这个阈值下，可以较少概率的把正常人预测成病人，较大概率的把病人都预测对了。

decile，评分从低到高排列，按照分数分为n等分，每一等分的均值为该decile的decile_score.

score VS event_score: score = decile_score. event_score是每一decile的实际值的均值。如果event_score 与 decile_score比较接近，代表模型比较好，否则代表模型比较差。

线性回归波波老师只讲了简单线性回归，既只有一个特征的回归。线性回归假设数据服从线性回归，找到一条直线拟合数据，通过学习参数使没有拟合到的部分最小（损失函数）。这也是所有参数学习模型的套路，只是模型不同，损失函数不同，参数的最优化方法不同而已。多元回归、逻辑回归。SVM都只是线性回归的一种变形。

线性回归使用最小二乘法对线性方程中的a和b寻优。

简单线性回归损失函数：

$J = \sum (y^{i}-a*x^{i}-b)^{2}$

要是J 最小，则对a,b,求导，令导数等于零，求最小值。

$\large a = \tfrac{\sum (x^{i}-\widehat{x})(y^{i}-\widehat{y})}{\sum(x^{i}-\widehat{x})^{2} }$

$\large b= \overline{y} - a*\overline{y}$

其中 $\large \overline{x},\overline{y}为$ 为x,y的平均值

猜你喜欢