李宏毅机器学习——学习笔记(2)

Regression
  • 每类特定的参数值构成一个特定的function,所有的参数可取值构成的集合,就是一个function set.
  • loss function的输入是模型的一个特定function, 输出是loss值。
    如何选出最好的function
Gradient Descent

梯度下降的方法可以求解任意的loss function,但是可能得到的值是local minimum, 而不能得到globalminimum。其中求解方式是对loss function,依次求解各个参数的偏导数。梯度下降中,最重要的超参数的learning rate,需要人为设定。
梯度下降求解loss function
其中多种参数梯度递减,一种较为简洁的表达方式就是如下图红色方框中所示:
在这里插入图片描述

梯度下降的缺陷
  • 容易陷入local minimum和saddle point(鞍点,偏微分为0)
  • 在微分很小的地方,即比较平坦的地方停止迭代,误以为达到收敛
模型函数
  • 模型越复杂,相对来说模型的function set范围就越广,在trainning data上的loss值就越小。但是在testing data上容易出现over-fitting问题。
  • over-fitting问题的解决方式有:

1.收集更多的数据
2.加入正则化项,其中正则化项是为了让参数更小,而参数越小,函数也就越平滑,更加符合我们的预期在这里插入图片描述
bias对函数是不是平滑没有任何影响,所以不用在bias上加入正则化项

猜你喜欢

转载自blog.csdn.net/m0_37757740/article/details/88570715
今日推荐