Linear regression with one variable [ml]

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/welcom_/article/details/84193810
  1. Model representation
    就是得到输入到输出的hypothesis(假设)函数,也就是得出学习算法。比如通过房子大小(输入)预测房价(输出)。

    在这里插入图片描述
  2. cost function(代价函数)
    线性回归,就是得到一个线性函数,就是直线吧。 y = k x + b y=kx+b 很像初中学习还考过的线性回归,不过和那时不太一样,那时候是最小二乘法求回归方程,现在是另外一种方法。
    最终的一次函数(hypothesis): h θ ( x ) = θ 0 + θ 1 x h_\theta(x)=\theta_0+\theta_1x
    cost function(用到均方差函数): J ( θ 0 , θ 1 ) = 1 2 m i = 1 m ( h θ ( i ) ( x ) y ( i ) ) 2 J(\theta_0,\theta_1)=\frac {1}{2m}\sum_{i=1}^m(h_\theta^{(i)}(x)-y^{(i)})^2
    2.1 在这里的cost function 就是关于样本也就是训练集 的一个均方差的 1 2 \frac 12 ,为什么是一半呢,是为了抵消对cost function求导产生的2 。
    要使 J ( θ 0 , θ 1 ) J(\theta_0,\theta_1) 最小化(minimize),就完成了目地。不得不说现在学的就是统计学。
    2.2 现在可以看出,把样本的数据代入后,就变成了关于 ( θ 0 , θ 1 ) (\theta_0,\theta_1) 的二元函数,构成关于J的函数图像是三维的,呈现碗状。
    在这里插入图片描述
  3. Gradient descent(梯度下降)
    3.1梯度下降是在这里找到minimize cost function的算法。
    梯度下降法:是假设条件更为广泛(无约束)的,一种通过迭代更新来逐步进行的参数优化方法,最终结果为局部最优
    3.2梯度下降就是对 θ j : = θ j α δ δ θ j J ( θ 0 , θ 1 ) \theta_j:=\theta_j-\alpha\frac{\delta}{\delta\theta_j}J(\theta_0,\theta_1) 进行不断的迭代。
    3.3其中j为0和1,代表了 ( θ 0 , θ 1 ) (\theta_0,\theta_1)
    3.4这个公式里面有个 δ δ θ j J ( θ 0 , θ 1 ) \frac{\delta}{\delta\theta_j}J(\theta_0,\theta_1) 是对相应的 θ j \theta_j 的偏导数,大于零,表示增,在这里要找到最小的,所以要减去,小于零,表示减,在这里要找到最小的,所以要加上,不断迭代重复,从而达到局部最小,最终 δ δ θ j J ( θ 0 , θ 1 ) = 0 \frac{\delta}{\delta\theta_j}J(\theta_0,\theta_1)=0 到达底部,在这里要注意 α \alpha 学名叫 learning rate太大的话,会直接越过极小点,太小的话,在数据非常多的时候会很慢。
    3.5另外,这个算法越接近极小点,速度会越慢。
    在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/welcom_/article/details/84193810
今日推荐