检测重要性(准确且节约时间)-评估

对结果进行验证或纠正或调整,指导下一步操作的重要性,能够准确的找出结果所对应的原因

用新样本去检测,好不好

训练集用来拟合参数,验证集用来选择模型,测试集作为泛化误差(无人为选择参与过程)

一般出现误差=过拟合(方差大-数据集过少,特征过多,)+欠拟合(偏差大-模型选择不好)

坐标的横轴重要性,变化如何影响输出(灵敏度)

验证集代表即使用非训练集旁边的点(结合图原因)

作图技巧,不同的曲线,可表示一个维度的意义

确立执行优先级-应该优先处理哪些事情

1.建立数据集,垃圾邮件的数据集(数字化0/1)

2.数据集的特征选择关系到分类器的准确性(如何选择),先简单实现,然后误差验证。再改进,误差验证。。。。

不对称性分类的误差评估:由1%的错误率,不能得到99%的准确率

例如:患者少,错误率自然低,准确率自然高

           患者多,错误率自然高,准确率自然低

           所以说要综合患者人数和个人判断准确率来看

再例如:患者少,瞎判断老师判断没病,那么准确率也是极高;所以患者人数对于结果有影响

相反,若对于正负例大约一半对一半的情况下,如果不是真本事判断,就不会再有这么高的准确率了;换句话说,对于这种数据集,就无需再往前走一步,把样本正负比例代入作为衡量标准了

衡量指标的重要性(配套)=患者数量比例不均衡要考虑

一个医生的看病能力=准确率+召回率(防止准确率水平的假)

用多个数据测量一个人的能力,侧面反映,

召回率,用以辅助说明,我预测出了多少病人有病,我的准确率是有意义的

猜你喜欢

转载自blog.csdn.net/chanleoo/article/details/89046236
今日推荐