吴恩达机器学习笔记4-误差分析

推荐的方法:
1. 开始一个简单的算法,然后快速实现,在交叉验证集上进行验证
2. 画出学习曲线,尝试不同的方案
3. 误差分析,手动检查算法错误的例子,看看是否存在系统性错误

最好有一种数值化评估算法的方法,以便分析算法的优劣

偏斜类:数据中一个类别的量远比另一个的多,会导致学习器直接全部猜测为数据量大的类

True Positive:预测为正实际为正
True Negative:预测为负实际为负
False Positive:预测为正实际为负
False Negative:预测为负实际为正

p r e c i s i o n = T r u e P o s i t i v e P r e d i c t e d P o s i t i v e

= T r u e P o s i t i v e T r u e P o s i t i v e + F a l s e P o s i t i v e

r e c a l l = T r u e P o s i t i v e A c t u a l P o s i t i v e

= T r u e P o s i t i v e T r u e P o s i t i v e + F a l s e N e g a t i v e

在分类问题中,临界值可以影响准确率和召回率,高准确率,低召回率,或者低准确率高召回率

评估算法的时候,准确率和召回率的平均值并不好,可以使用调和平均值

F 1 = 2 P R P + R

猜你喜欢

转载自blog.csdn.net/zic234gh9/article/details/81590372