scikit-learn机器学习:常用算法原理及编程实战 第三章答案

1.什么是过拟合?什么是欠拟合?怎么样去诊断算法是否是过拟合或欠拟合?

过拟合:训练误差很小,验证误差较大。高方差,

欠拟合:训练误差和验证误差都很大。高偏差,

诊断算法:绘制这个模型的学习曲线

2.模型的拟合成本是什么意思?它和模型的准确性有什么关系?

拟合成本:衡量模型与训练样本符合程度的指标

关系:成本函数值越小,模型准确性越高

3.我们有哪些指标来评价一个模型的好坏?

回归模型:

1)SSE  误差平方和

SSE数值大小本身没有意义,随着样本增加,SSE必然增加,也就是说,不同的数据集的情况下,SSE比较没有意义

2)R-square决定系数

3)

Adjusted R-Square (校正决定系数)

      

分类模型

1)混淆矩阵(Confusion Matrix)

真实情况
            预测结果
        正例
            反例
        正例
            TP(真正例)
            FN(假反例)
        反例
            FP(假正例)
            TN(真反例)
         

查准率(精准率):Precision = TP / (TP+FP);

查全率(召回率):Recall = TP / (TP+FN);

正确率(准确率):Accuracy = (TP+TN) / (TP+FP+TN+FN) 

2)PR曲线

3)ROC曲线和AUC

4.为什么需要交叉验证数据集?

用来验证参数

5.什么是学习曲线?为什么要画学习曲线?

学习曲线:以Jtrian(θ)和Jcv(θ)作为纵坐标,画出与训练数据集m的大小关系。

目的:直观的观察到模型的准确性与训练集大小的关系

6.打开ch03.02.ipynb,运行直观示例代码。

7.参考ch03.02.ipynb,换成随机森林回归算法sklearn.ensemble.RandomForestRegressor来拟合曲线,并画出学习曲线。提示:读者可以阅读scikit-learn文档以获得帮助。不需要深入了解算法原理,由于scikit-learn提供了一致的接口,对大部分有编程经验的读者这个任务不会是太大的障碍。

8.为什么需要查准率和召回率来评估模型的好坏?查准率和召回率适合那些领域?

有些问题先验概率太低。
--------------------- 
原文:https://blog.csdn.net/dss875914213/article/details/88833063 

发布了65 篇原创文章 · 获赞 12 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/sereasuesue/article/details/93197473
今日推荐