Loss function损失函数
为了衡量func set中的某个function的好坏,我们需要一个评估函数,即Loss function,损失函数,简称L; Loss function是一个function的function
Gradient Descent梯度下降
gradient descent的厉害之处在于,只要 是可微分的,gradient descent都可以拿来处理这个 ,找到表现比较好的paramenters
Regularization(L1,L2正则化解决overfitting)
在无法确定真实数据分布的情况系啊,我们尽可能去改变loss function的评价标准
- 我们的model的表达是要尽可能的复杂,包含尽可能多的参数和尽可能多的高非线性项。
- 但是我们的loss function又有能力去控制这条曲线的参数和形状,使之不会出现overfitting过拟合现象。
- 在真实数据满足高非线性曲线分布的时候,loss function控制训练出来的高次项的系数比较大,使得到的曲线比较弯折起伏。
- 在真实数据满足低次线性分布的时候,loss function控制训练出来的高次项的系数比较小甚至等于0,使得到的曲线接近linear分布。
如何保证能学出这样的参数呢?这就是L1 L2正则化出现的原因。 - L1正则化加入了 这一项
- L2正则化加入了 这一项