Box-cox变换

Box和Cox于1964年提出了一种基于极大似然法的幂转换模型。Box-Cox幂分布族是一种十分有用的连续分布族。其转换模型为

\begin{matrix} (1) & y^{(λ)} = {\begin{cases} \frac{y^{λ} - 1}{λ}, λ \neq 0 \\ l n y, λ = 0 \end{cases} \end{matrix}

$y^{(\lambda)} = \begin {cases} \frac {y^\lambda-1} {\lambda},\lambda \ne 0 \\ ln y,\lambda = 0 \end {cases} \tag 1$
这里

λ

$\lambda$ 是一个待定的变换参数。对不同的

λ

$\lambda$ ，所做的变换自然不同，所以就是一个变换族。对因
变量的观察值

y_{1}, \dots ， y_{n}

$y_1,\cdots，y_n$ ，应用上述变换，得到变换后的变量为:

\begin{matrix} (2) & y^{(λ)} = (y_{1}^{(λ)}, \dots, y_{n}^{(λ)}) \end{matrix}

$y^{(\lambda)} = (y_1^{(\lambda)},\cdots,y_n^{(\lambda)}) \tag 2$
这就是说，要求通过因变量的变换，使得变换后的

y^{(λ)}

$y^{(\lambda)}$ 与自变量具有线性依托关系。因此，Box-Cox变换是通过参数的适当选择，达到对原来数据的“综合治理”，使其满足一个线性模型条件。

对于 $\lambda$ 值的选择，可以通过极大似然法来估计。首先，在一个经验范围内选择参数 $\lambda$ 的值，然后使用下式计算:
$L^{(\lambda)} = - \frac {n} {2} ln \sigma ^2+ln J(\lambda,y) \tag 3$
上式中，对于所有的 $\lambda$ ,有：

\begin{matrix} (4) & l n J (λ, y) = \prod_{i = 1}^{n} \frac{\partial W_{r}}{\partial y_{i}} = \prod_{i = 1}^{n} y_{i}^{λ - 1} \end{matrix}

$ln J(\lambda,y) = \prod _{i=1}^{n} \frac {\partial W_r}{ \partial y_i}= \prod _{i=1}^{n} y^{\lambda -1}_{i} \tag 4$
对于每一个

λ

$\lambda$ 来说，

σ^{2}

$\sigma ^2$ 是

y^{(λ)}

$y^{(\lambda)}$ 的极大似然估计，可通过式

(5)

$(5)$ 计算得到:

\begin{matrix} (5) & σ_{a}^{2} = \frac{1}{n} \sum_{i = 1}^{n} (y_{i}^{(λ)} - {\bar{y}}^{(λ)})^{2} \end{matrix}

$\sigma^2_a = \frac {1} {n} \sum \limits _{i=1} ^n (y_i^{(\lambda)}-\overline y^{(\lambda)})^2 \tag 5$
经推导可得到如下方程：

\begin{matrix} (6) & L^{(λ)} = - \frac{n}{2} l n [\sum_{i = 1}^{n} \frac{(y_{i}^{(λ)} - {\bar{y}}^{(λ)})^{2}}{n} + (λ - 1) \cdot \sum_{i = 1}^{n} l n y_{i} \end{matrix}

$L^{(\lambda)} = - \frac {n} {2} ln [ \sum \limits _{i=1} ^n \frac{(y_i^{(\lambda)}-\overline y^{(\lambda)})^2} {n}+(\lambda -1) \cdot \sum \limits _{i=1} ^n ln y_i\tag 6$
上式中，

{\bar{y}}^{(λ)} = \frac{1}{n} \sum_{i = 1}^{n} y_{i}^{(λ)}

$\overline y^{(\lambda)} = \frac {1} {n} \sum \limits _{i=1} ^n y_i^{(\lambda)}$
每一个

λ

$\lambda$ 对应的

λ^{(λ)}

$\lambda^{(\lambda)}$ 都可得到相应的

L^{(λ)}

$L^{(\lambda)}$ 。由此可以描绘相应的

λ

$\lambda$ 与

L^{(λ)}

$L^{(\lambda)}$ 的关系图，从中我们可以得到相应的最优

λ^{*}

$\lambda ^*$ ，使得

L^{(λ)}

$L^{(\lambda)}$ 最大；该优化的

λ^{*}

$\lambda ^*$ 对应了最优的转换模型。

这里写图片描述

Box-cox变换

Box-Cox变换

猜你喜欢