机器学习基石第十五讲笔记

Lecture 15: Validation验证

15-1 模型选择问题

什么是好的模型?答:可以让Eout最小。

但这就面临着问题:我们不可能知道Eout的值。

那么该怎么选呢?也不可以visual去选。(如果高维呢)

选Ein最小的?答:不可以,过拟合情况;或者可能有bad generalization。

一种答案:选有最好的测试结果的模型。在已有数据中留下一小部分当做做完模型的测试集。


15-2 测试集

上述模型选择问题答案的图示:

用不同的模型H得到不同的Eout,再进行比较找最好的。

把所有data的gm和所有data减去validation资料的gm-相对比,有:

在验证集较小时,gm和gm-大致相同;

在验证集较大时,gm效果比gm-好。



15-3 leave-one-out 交叉验证


此种方法的示意图(分别是线性的和常数的):


此时在data size很大时,gm和gm-几乎是相同的。


15-4 V-Fold交叉验证

leave-one-out的缺点1:若1000个点,则要做1000次。

leave-one-out的一个简单方法:linear regression,此时有leave-one-out的公式解。

leave-one-out的缺点2:做binary问题(1/0)时稳定性太差。

所以实际中不常使用。

V-Fold在leave-one-out上的改进:


比如十折交叉验证时,轮流着拿九份训练,一份验证。


猜你喜欢

转载自blog.csdn.net/weixin_37805505/article/details/79489584
今日推荐