吴恩达机器学习——机器学习系统设计（人工智能）

原文链接： https://blog.csdn.net/qq_36217665/article/details/99293325

误差分析
（1）构建一个学习算法的推荐方法
从一个简单的能快速实现的算法开始，实现该算法并用交叉验证集数据测试这个算法
绘制学习曲线，决定是增加更多数据，或者添加更多特征，还是其他选择
进行误差分析：人工检查交叉验证集中我们算法中产生预测误差的实例，看看这些实例是否有某种系统化的趋势
（2）误差分析作用
误差分析并不一定能判断应该采取怎样的行动。但通过尝试不同的模型并比较后，能用数值来判断哪一个模型更好更有效，通常是看交叉验证集的误差。
类偏斜的误差度量
对于类偏斜的问题，误差的大小是不能视为评判算法效果的依据的。常采用查准率（Precision）和召回率（Recall）来判断。
查准率=TP/(TP+FP)
召回率=TP/(TP+FN)
其中：TP–真阳性（True Positive）；TN-- 真阴性（True Negative,TN）；FP-- 假阳性（False Positive）；FN-- 假阴性（False Negative）
查准率和召回率之间的权衡
对某个特定的问题高查准率对应低的召回率，低的查准率对应高的召回率。理想情况是查准率和召回率都越高越好，这使得权衡两者之间的取值。
一般建议：根据实际情况具体的分析。
常用的判断方法是：计算F1值：F1 Score = 2*PR/(P+R)，其中P是查准率，R是召回率
机器学习的数据
通过大量的数据并在特定类型的学习算法中进行训练，可以有效的获得良好性能的学习算法。这些条件是：
（1）使用训练集样本m很大，特征n也很大，m》n，那么这些算法就不太可能会过度拟合。也就是说训练误差有希望接近测试误差。
（2）为了有一个高性能的学习算法，但又不能有高偏差和高方差。这种偏差问题，通过确保有一个具有很多参数的学习算法来解决，这就需要用非常大的训练集来保证。

关键的假设：特征值有足够的信息量，且有一类很好的函数，这是为什么能保证低误差的关键所在
————————————————
版权声明：本文为CSDN博主「翔燕」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_36217665/article/details/99293325

吴恩达机器学习——机器学习系统设计（人工智能）

猜你喜欢