2018/11/5总结回顾

昨天白天写了一天的分类评价准则,感觉又在赶作业。晚上看了一点线性回归的东西。基于不同阈值下的混淆矩阵我们可以得到多个评价准则。

抄作业:

ROC是TPR和FPR的随阈值变化得到的曲线。阈值越小,TPR和FPR越大,阈值越大,TPR和FPR越小。如果在阈值大的时候,FPR很小,但TPR很大,这表示分类正确,没有把正常人预测成病人,而把病人都预测对了。当随机预测时,TPR和FPR是一条y=x的曲线,ROC越向正Y轴偏移,离baseline越远,这个模型也越好,这时ROC曲线下的面积AUC越大。

Lift表示的是precision/pi1,既使用该模型顾客的回复率与不使用该模型顾客的回复率的比值。Lift chart是lift与depth随阈值不同的曲线,depth是预测为正例占总体的比率。其实这条曲线表示的是将预测score自大到小排列,令前10%为正例,既给评分为前10%的人发传单,比值为4。 令前20%为正例,既给评分为前20%的人发传单,比值为3。随着阈值减小,precision会减少,lift会下降。

Gain= PV+=precision=lift*pi1.  与lift相同,只是值不同。

KS曲线是 KS= TPR -FPR在不同阈值下的点组成的曲线。KS最大的点代表在这个阈值下,可以较少概率的把正常人预测成病人,较大概率的把病人都预测对了。

decile,评分从低到高排列,按照分数分为n等分,每一等分的均值为该decile的decile_score.

score VS event_score: score = decile_score.  event_score是每一decile的实际值的均值。如果event_score 与 decile_score比较接近,代表模型比较好,否则代表模型比较差。

线性回归波波老师只讲了简单线性回归,既只有一个特征的回归。线性回归假设数据服从线性回归,找到一条直线拟合数据,通过学习参数使没有拟合到的部分最小(损失函数)。这也是所有参数学习模型的套路,只是模型不同,损失函数不同,参数的最优化方法不同而已。多元回归、逻辑回归。SVM都只是线性回归的一种变形。

线性回归使用最小二乘法对线性方程中的a和b寻优。

简单线性回归损失函数:

J = \sum (y^{i}-a*x^{i}-b)^{2}

要是J 最小, 则对a,b,求导,令导数等于零,求最小值。

\large a = \tfrac{\sum (x^{i}-\widehat{x})(y^{i}-\widehat{y})}{\sum(x^{i}-\widehat{x})^{2} }

\large b= \overline{y} - a*\overline{y}

其中\large \overline{x},\overline{y}为为x,y的平均值

猜你喜欢

转载自blog.csdn.net/shiyueyue0822/article/details/83780523