版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/welcom_/article/details/84193810
- Model representation
就是得到输入到输出的hypothesis(假设)函数,也就是得出学习算法。比如通过房子大小(输入)预测房价(输出)。
- cost function(代价函数)
线性回归,就是得到一个线性函数,就是直线吧。 很像初中学习还考过的线性回归,不过和那时不太一样,那时候是最小二乘法求回归方程,现在是另外一种方法。
最终的一次函数(hypothesis):
cost function(用到均方差函数):
2.1 在这里的cost function 就是关于样本也就是训练集 的一个均方差的 ,为什么是一半呢,是为了抵消对cost function求导产生的2 。
要使 最小化(minimize),就完成了目地。不得不说现在学的就是统计学。
2.2 现在可以看出,把样本的数据代入后,就变成了关于 的二元函数,构成关于J的函数图像是三维的,呈现碗状。
- Gradient descent(梯度下降)
3.1梯度下降是在这里找到minimize cost function的算法。
梯度下降法:是假设条件更为广泛(无约束)的,一种通过迭代更新来逐步进行的参数优化方法,最终结果为局部最优
3.2梯度下降就是对 进行不断的迭代。
3.3其中j为0和1,代表了 。
3.4这个公式里面有个 是对相应的 的偏导数,大于零,表示增,在这里要找到最小的,所以要减去,小于零,表示减,在这里要找到最小的,所以要加上,不断迭代重复,从而达到局部最小,最终 到达底部,在这里要注意 学名叫learning rate
太大的话,会直接越过极小点,太小的话,在数据非常多的时候会很慢。
3.5另外,这个算法越接近极小点,速度会越慢。