吴恩达机器学习——机器学习系统设计(人工智能)

原文链接: https://blog.csdn.net/qq_36217665/article/details/99293325
  1. 误差分析
    (1)构建一个学习算法的推荐方法
    从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法
    绘制学习曲线,决定是增加更多数据,或者添加更多特征,还是其他选择
    进行误差分析:人工检查交叉验证集中我们算法中产生预测误差的实例,看看这些实例是否有某种系统化的趋势
    (2)误差分析作用
    误差分析并不一定能判断应该采取怎样的行动。但通过尝试不同的模型并比较后,能用数值来判断哪一个模型更好更有效,通常是看交叉验证集的误差。

  2. 类偏斜的误差度量
    对于类偏斜的问题,误差的大小是不能视为评判算法效果的依据的。常采用查准率(Precision)和召回率(Recall)来判断。
    查准率=TP/(TP+FP)
    召回率=TP/(TP+FN)
    其中:TP–真阳性(True Positive);TN-- 真阴性(True Negative,TN);FP-- 假阳性(False Positive);FN-- 假阴性(False Negative)

  3. 查准率和召回率之间的权衡
    对某个特定的问题高查准率对应低的召回率,低的查准率对应高的召回率。理想情况是查准率和召回率都越高越好,这使得权衡两者之间的取值。
    一般建议:根据实际情况具体的分析。
    常用的判断方法是:计算F1值:F1 Score = 2*PR/(P+R),其中P是查准率,R是召回率

  4. 机器学习的数据
    通过大量的数据并在特定类型的学习算法中进行训练,可以有效的获得良好性能的学习算法。这些条件是:
    (1)使用训练集样本m很大,特征n也很大,m》n,那么这些算法就不太可能会过度拟合。也就是说训练误差有希望接近测试误差。
    (2)为了有一个高性能的学习算法,但又不能有高偏差和高方差。这种偏差问题,通过确保有一个具有很多参数的学习算法来解决,这就需要用非常大的训练集来保证。

关键的假设:特征值有足够的信息量,且有一类很好的函数,这是为什么能保证低误差的关键所在
————————————————
版权声明:本文为CSDN博主「翔燕」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_36217665/article/details/99293325

猜你喜欢

转载自blog.csdn.net/changdizm/article/details/100865959