吴恩达机器学习(第五章)--特征缩放和学习率

一、特征缩放 

h(x)=\theta_0x_0+\theta_1x_1+...+\theta_nx_n----(1)

对于我们假设的式子(1),可能存在这样一种情况就是有些数据远大于另一些数据(eg:x_1>>x_2)

比如房子价格的例子:

房子的面积要远大于房子的层数和房间数。在这种情况下可以看下图,所产生的等高线的圈会很窄,在做梯度下降的时候需要做很多次(红箭头)。

这种情况下我们就可以进行特征缩放,将各类数据缩放在同一范围内。从而得到下图。

特征缩放的方法:我们可以除以每一种类型的自身的平均值。也可以时其他特定的数,只要能使他们在一定的范围内就行,而这个范围也不是固定的,可以时[-1,1],也可以是[0,3]等等,只要不是太大,比如[-100,100]就不好

 

向上图就会收敛的更快一些。 

二、学习率

学习率其实就是在梯度下降时候的α,α太小则收敛太慢,耗费时间,α太大则有可能永远无法收敛(如下图)

猜你喜欢

转载自blog.csdn.net/naocanmani/article/details/83471862