第15节课 Validation
- 本节课主要学习了Validation验证。介绍了要选择好的机器学习的模型的一些概念,然后详细介绍了Validation的过程。最后,介绍了两种验证方法,比较它们各自的优点和缺点。
(一)机器学习模型的选择
1.关于二元分类
二元分类可以选择多种演算法,例如:PLA算法、pocket、线性回归、逻辑回归等;这些方法大多需要一步一步去完成,所以要决定需要走100步,还是走1000步,还是走10000步;还可以决定每步要走多大,例如一步是要走1,还是0.1,还是0.01;还有许多的转换可以选择,例如是用原来的转换,还是二次的转换,还是十次的转换等等。需要考虑很多的因素,所以今天主要学习的是怎么样做出合适的选择。
2.引出模型的选择:
①例子:下面有两个模型。H1是一条直线划分的,不过有一点错误;H2是二次曲线划分的,不过没有出现错误,实际情况下我们应该选择哪种模型?
②探讨:N个模型的选择和选择的目的(见下图)
希望通过这些模型选择出一个模型使得到的矩中Eout是最小的,说明这个模型选择的合适。
但问题是Eout没法提前确定。
用手上的资料进行模型选择时,要避免用视觉(即单凭看到的)的去做选择。
3.如何进行选择:
①方法:选择Ein最小的模型。
②但是这个方法的设定有以下问题需要思考:
转换次数多比转换次数少好;
加入