Regression
- 每类特定的参数值构成一个特定的function,所有的参数可取值构成的集合,就是一个function set.
- loss function的输入是模型的一个特定function, 输出是loss值。
Gradient Descent
梯度下降的方法可以求解任意的loss function,但是可能得到的值是local minimum, 而不能得到globalminimum。其中求解方式是对loss function,依次求解各个参数的偏导数。梯度下降中,最重要的超参数的learning rate,需要人为设定。
其中多种参数梯度递减,一种较为简洁的表达方式就是如下图红色方框中所示:
梯度下降的缺陷
- 容易陷入local minimum和saddle point(鞍点,偏微分为0)
- 在微分很小的地方,即比较平坦的地方停止迭代,误以为达到收敛
模型函数
- 模型越复杂,相对来说模型的function set范围就越广,在trainning data上的loss值就越小。但是在testing data上容易出现over-fitting问题。
- over-fitting问题的解决方式有:
1.收集更多的数据
2.加入正则化项,其中正则化项是为了让参数更小,而参数越小,函数也就越平滑,更加符合我们的预期
bias对函数是不是平滑没有任何影响,所以不用在bias上加入正则化项