线性回归求解方法比较及数据归一化标准化的方法及作用

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_36811967/article/details/84321430

最小二乘法和梯度下降法

之前有讲过线性回归求解的两种方法:最小二乘法和梯度下降法,这两种方法各有优缺点。梯度下降法:当数据量很大时,计算速度相对而言就很快,但有一些超参数如学习率、迭代次数要自己调整,且特征值数量级不一致时需要进行归一化处理;最小二乘法则可以直接解出结果,但是运算量大,数据量大时会很慢。

数据的归一化和标准化

在这里插入图片描述
可以看到归一化是把所有的数据全部缩放到0-1之间,而样本的标准差是所有样本和样本均值的差的平方和再除以样本数后开方得到的,显然是小于样本最大最小差值的,甚至在极端情况下为0,所以标准化的输出范围是正无穷到负无穷。
在这里插入图片描述
归一化和标准化本质上都是一种线性变换。因为对于一个特定的样本来说,它的范围、最小值、均值和方差都是一定的,所以在做归一化或者标准化的时候可以看作一次缩放,再做一次评议。而且线性变换不改变原始数据的排序,即线性关系不变。

当数据较为集中时,样本的方差小,那么标准化之后就会更加分散;如果数据本身分布就很广,那么样本方差大,数据就会被集中到更小的范围里。所以,如果对输出范围有要求或这数据较稳定且不存在极端的最大最小值,那么用归一化;如果数据存在异常值和较多噪音,可以用标准化,间接通过中心化避免异常值和极端值的影响。

那为什么要做归一化了?
因为归一化后能够更快的收敛到最优解。因为如果不归一化,梯度走的方向很可能是一个之字形,而归一化后的路线更加平缓,会更容易收敛到最优解。而且对于一些模型,还有可能提高精度。
在这里插入图片描述

Reference:

http://www.cnblogs.com/linhxx/p/8412687.html
https://www.zhihu.com/question/20467170/answer/392949674
https://www.zhihu.com/question/20455227

猜你喜欢

转载自blog.csdn.net/sinat_36811967/article/details/84321430