scikit-learn机器学习：常用算法原理及编程实战第三章答案

1.什么是过拟合？什么是欠拟合？怎么样去诊断算法是否是过拟合或欠拟合？

过拟合：训练误差很小，验证误差较大。高方差，

欠拟合：训练误差和验证误差都很大。高偏差，

诊断算法：绘制这个模型的学习曲线

2.模型的拟合成本是什么意思？它和模型的准确性有什么关系？

拟合成本：衡量模型与训练样本符合程度的指标

关系：成本函数值越小，模型准确性越高

3.我们有哪些指标来评价一个模型的好坏？

回归模型：

1）SSE 误差平方和

SSE数值大小本身没有意义，随着样本增加，SSE必然增加，也就是说，不同的数据集的情况下，SSE比较没有意义

2）R-square决定系数

3）

Adjusted R-Square (校正决定系数）

分类模型

1）混淆矩阵（Confusion Matrix）

真实情况
           预测结果
       正例
           反例
       正例
           TP（真正例）
           FN（假反例）
       反例
           FP（假正例）
           TN（真反例）

查准率（精准率）：Precision = TP / (TP+FP)；

查全率（召回率）：Recall = TP / (TP+FN)；

正确率（准确率）：Accuracy = (TP+TN) / (TP+FP+TN+FN)

2）PR曲线

3）ROC曲线和AUC

4.为什么需要交叉验证数据集？

用来验证参数

5.什么是学习曲线？为什么要画学习曲线？

学习曲线：以Jtrian(θ）和Jcv(θ）作为纵坐标，画出与训练数据集m的大小关系。

目的：直观的观察到模型的准确性与训练集大小的关系

6.打开ch03.02.ipynb,运行直观示例代码。

7.参考ch03.02.ipynb,换成随机森林回归算法sklearn.ensemble.RandomForestRegressor来拟合曲线，并画出学习曲线。提示：读者可以阅读scikit-learn文档以获得帮助。不需要深入了解算法原理，由于scikit-learn提供了一致的接口，对大部分有编程经验的读者这个任务不会是太大的障碍。

8.为什么需要查准率和召回率来评估模型的好坏？查准率和召回率适合那些领域？

有些问题先验概率太低。
---------------------
原文：https://blog.csdn.net/dss875914213/article/details/88833063

站内首发文章

sereasuesue

发布了65 篇原创文章 · 获赞 12 · 访问量 1万+

私信关注

scikit-learn机器学习：常用算法原理及编程实战 第三章答案

猜你喜欢

scikit-learn机器学习：常用算法原理及编程实战第三章答案