数据处理——将非高斯分布转化为高斯分布

将非高斯分布转化为高斯分布

注:可用SPSS操作

1.平方根变化

(1)使服从Poission分布的计数资料或轻度偏态资料正态化,可用平方根变换使其正态化。

(2)当各样本的方差与均数呈正相关时,可使资料达到方差齐性。

2.取<1的某数次幂

3.取log

(1)使服从对数正态分布的数据正态化。

(2)使数据达到方差齐性,特别是各样本的标准差与均数成比例或变异系数CV接近于一个常数时。

4.倒数变换

数据两端波动较大

5.平方根反正旋变换

常用于服从二项分布的率或百分比的资料。一般认为等总体率较小如<30%时或较大(如>70%时),偏离正态较为明显,通过样本率的平方根反正玄变换,可使数据接近正态分布,达到方差齐性的要求。

6.BOX-COX变换

用于连续的响应变量不满足正态分布的情况,使线性回归模型满足线性性、独立性、齐方差性以及正态性,同时又不丢失信息。

BOX-COX变换目标有两个:

  1. 变换后,可以一定程度上减小不可观测的误差和预测变量相关性。

(主要操作是对因变量转换,使得变换后的因变量于回归自变量具有线性相依关系,误差也服从正态分布,误差各分量是等方差且相互独立。)

  1. 用这个变换来使得因变量获得一些性质,比如在时间序列分析中的平稳性,或者使得因变量分布为正态分布。

7.逆变换采样,逆概率积分变换

逆变换采样,又称为逆采样、逆概率积分变换,是伪随机数采样的一种基本方法。也就是说,在已知任意概率分布的累计分布函数下,可用于从该分布中生成随机样本。

逆变换采样采用一个在0到1之间的 u u 的均匀样本,然后从分布 P ( X ) P(X) 的领域中返回最大的数字 x x ,使得 P < X < x u 0 P(- \infty<X<x)\le u_{0}

8.Fisher变换

例如:
x 1 l o g ( x 1 ) x 2 l o g ( x 2 + c ) x 3 x 3 x 4 1 x 4 x 5 x 5 1 3 x 6 arcsin x 6 x 7 1 2 ln [ 1 + x 7 1 x 7 ] x 8 { ( 1 + λ x 8 λ ) 1 λ , λ 0 ln ( x 8 λ ) , λ = 0 B O X C O X \begin{matrix} x_{1}\leftarrow log(x_{1})\\ x_{2}\leftarrow log(x_{2}+c)\\ x_{3}\leftarrow \sqrt{x_{3}}\\ x_{4}\leftarrow \frac{1}{\sqrt{x_{4}}}\\ x_{5}\leftarrow x_{5}^{\frac{1}{3}}\\ x_{6}\leftarrow {\arcsin{\sqrt x_{6}}}\\ x_{7}\leftarrow \frac{1}{2}\ln[\frac{1+x_{7}}{1-x_{7}}]\\ x_{8}\leftarrow \{\begin{aligned} (1+\lambda x_{8}^{\lambda})^{\frac{1}{\lambda}},\lambda\ne0\\\ln(x_{8}^{\lambda}),\lambda=0 \end{aligned}{(BOX-COX逆变换公式)} \end{matrix}

发布了4 篇原创文章 · 获赞 5 · 访问量 1535

猜你喜欢

转载自blog.csdn.net/qq_43699254/article/details/104641214