1.成本敏感分类
1.适用情况
不同类的预测错误成本不同
2. 如何使用
s1.建立成本矩阵
如下,由于主对角线表示预测正确,因此成本为0.其他地方的成本依靠具体情况而定,这里我们设置都为1.
s2.在预测的时候我们与概率向量相乘,选择期望成本最低的预测
3. 何时使用
依具体情况,合适的成本矩阵且在合适时候使用将提升效果
- 在训练时忽略,预测阶段考虑
- 在预测阶段忽略,训练阶段考虑
- 都考虑
2.上升图
1. 如何获得上升系数?
2. 上升图的含义?
在开始时,假设我们有10000个样本,回应数是1000.
因此理论下这一写样本呈现一个直线上升的趋势,因此就有了直线。
由于我们通过机器学习方法,得到了上升系数,因此得到了曲线
3. ROC曲线?
1.为什么使用ROC曲线?
ROC曲线在找出最优的不同分类器上很有用。
2. ROC曲线含义?
描绘分类器的性能而不考虑类分布或误差成本。
y轴:肯定类的数量/百分比 。灵敏度。TP/(TP+FN)
x轴:否定类的数量/百分比。特异度。FP/(TN+FP)
锯齿状ROC线依赖于具体测试样本内容
3. 怎么看ROC曲线?
因为我们总想使得程序分类正确,因为总趋向选择越靠近y轴的。(也因此说roc越大越好)
举例,A、B是两种方法得到的ROC曲线。
- 在A、B交叉点之前,意味着数据量小,A靠近Y轴,因此选A方法
- 在A、B交叉点之后,意味着数据量略大,B靠近Y轴,因此选择B方法
- 在交叉点时,组合使用
4. 总结
recall=TP/(TP+FN)