回归和拟合、归一化和标准化

回归和拟合:

一、回归:

研究一个随机变量Y对另一个(X)或一组(X1,X2,…,Xk)变量的相依关系的统计分析方法。

应用回归预测法时应首先确定变量之间是否存在相关关系。如果变量之间不存在相关关系,对这些变量应用回归预测法就会得出错误的结果。

二、拟合

所谓拟合是指已知某函数的若干离散函数值{f1,f2,…,fn},通过调整该函数中若干待定系数f(λ1,λ2,…,λn),使得该函数与已知点集的差别(最小二乘意义)最小.

三、帮助理解的一些观点:

1、拟合是一种数据处理的方式。简单的说就是你有一组数据,觉得这组数据和一个已知的函数(这个函数的参数未定)很相似,为了得到最能表示这组数据特征的这个函数,通过拟合这种方式(具体的数学方法很多)求得参数。
而回归是一种特定的数学方法,它可以实现数据拟合,得到函数的参数。


2、

Curve fitting is the process of constructing a curve, or mathematicalfunction, that has the best fit to a series of data points, possibly subject toconstraints. Curve fitting can involve either interpolation, where an exact fitto the data is required, or smoothing, in which a "smooth" functionis constructed that approximately fits the data. A related topic is regressionanalysis, which focuses more on questions of statistical inference such as howmuch uncertainty is present in a curve that is fit to data observed with randomerrors. Fitted curves can be used as an aid for data visualization, to infervalues of a function where no data are available, and to summarize therelationships among two or more variables. Extrapolation refers to the use of afitted curve beyond the range of the observed data, and is subject to a greaterdegree of uncertainty since it may reflect the method used to construct thecurve as much as it reflects the observed data.

它告诉我们拟合侧重于调整曲线的参数,使得与数据相符。

而回归重在研究两个变量或多个变量之间的关系。它可以用拟合的手法来研究两个变量的关系,以及出现的误差。



归一化和标准化

一、归一化:

1、把数变为(0,1)之间的小数
主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。
2、把有量纲表达式变为无量纲表达式
归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。

3、对不同特征维度的伸缩变换的目的是使各个特征维度对目标函数的影响权重是一致的,即使得那些扁平分布的数据伸缩变换成类圆形。这也就改变了原始数据的一个分布。

好处:

(1)提高迭代求解的收敛速度

(2)提高迭代求解的精度


二、标准化

1、数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。由于信用指标体系的各个指标度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。

2、标准化表示的是原始值与均值之间差多少个标准差,是一个相对值,所以也有去除量纲的功效。同时,它还带来两个附加的好处:均值为0,标准差为1。均值为0有什么好处?比如在去中心化的数据上做SVD分解等价于在原始数据上做PCA;机器学习中很多函数如SigmoidTanhSoftmax等都以0为中心左右分布(不一定对称)。

3、标准化是为了方便数据的下一步处理,而进行的数据缩放等变换,并不是为了方便与其他数据一同处理或比较,比如数据经过零-均值标准化后,更利于使用标准正态分布的性质,进行处理。

4、对不同特征维度的伸缩变换的目的是使得不同度量之间的特征具有可比性。同时不改变原始数据的分布。待考究。


三、其他参考

1、归一化与标准化:http://www.cnblogs.com/zhaokui/p/5112287.html

2、数据标准化/归一化normalization  http://blog.csdn.net/pipisorry/article/details/52247379

3、标准化和归一化什么区别? https://www.zhihu.com/question/20467170

4、是否需要标准化/归一化:

主要看模型是否具有伸缩不变性。

有些模型在各个维度进行不均匀伸缩后,最优解与原来不等价,例如SVM。对于这样的模型,除非本来各维数据的分布范围就比较接近,否则必须进行标准化,以免模型参数被分布范围较大或较小的数据dominate。

有些模型在各个维度进行不均匀伸缩后,最优解与原来等价,例如logisticregression。对于这样的模型,是否标准化理论上不会改变最优解。但是,由于实际求解往往使用迭代算法,如果目标函数的形状太“扁”,迭代算法可能收敛得很慢甚至不收敛。所以对于具有伸缩不变性的模型,最好也进行数据标准化。
作者:王赟 Maigo
链接:https://www.zhihu.com/question/30038463/answer/50491149
来源:知乎


猜你喜欢

转载自blog.csdn.net/qq_30142403/article/details/80446915