定心,规范化,白化

输入定心

定心是通过更改输入\(\mathtt{X}\)的原点移除输入中的偏差,即使得变换后的输入\(\mathtt{Z}\)均值为零

输入的平均值\(\bar{\mathtt{x}}=\frac{1}{N}\mathtt{X^T1}\)

\[\mathtt x=\begin{bmatrix} {x_0}\\ {x_1}\\ {\vdots}\\ {x_d}\\ \end{bmatrix}\] \(\mathtt x\in R^{(d+1)*1}\)
\[\mathtt{X}=\begin{bmatrix}{\mathtt{x_1^T}}\\{\mathtt{x_2^T}}\\{\vdots}\\{\mathtt{x_N^T}}\\\end{bmatrix}\] \(\mathtt X\in R^{N*(d+1)}\)
\(\mathtt{1}=\begin{bmatrix}{1}\\{1}\\{\vdots}\\{1}\\\end{bmatrix}\) \(\mathtt 1\in R^{N*1}\)

转换后的输入\(\mathtt{z_n=x_n-\bar{x}}\)

或者\(\mathtt{Z=X-1\bar{x}^T}\)

证明变换后输入均值为零

\(\mathtt{\bar{z}=\frac{1}{N}Z^T1=\frac{1}{N}X^T1-\frac{1}{N}\bar{x}1^T1=\bar{x}-\frac{1}{N}\bar{x}N}=0\)

输入规范化

定心是通过对输入\(\mathtt{X}\)进行特征缩放,使得变换后的输入\(\mathtt{Z}\)每个特征标准差为1

以下讨论建立在定心的基础上

标准差计算方法\(\sigma=\sqrt{\frac{1}{N}\sum_{n=1}^N(x_{i}-\bar{x})^2}\),由于已经定心(\(\bar{x}=0\)),所以\(\sigma=\sqrt{\frac{1}{N}\sum_{n=1}^Nx_{i}^2}\)

标准差\(\sigma_i=\sqrt{\frac{1}{N}\sum_{n=1}^Nx_{ni}^2}\)

变换后\(\mathtt{z_n}=\begin{bmatrix}{x_{n1}/\sigma_1}\\{\vdots}\\{x_{nd}/\sigma_d}\\\end{bmatrix}=\mathtt{Dx_n}\)

D是对角矩阵,\(\mathtt{D}_{ii}=1/\sigma_i\)

或者\(\mathtt{Z=XD}\)

证明变换后标准差为1

\(\sigma_i(\mathtt{z})=\sqrt{\frac{1}{N}\sum_{n=1}^Nz_{ni}^2}=\sqrt{\frac{1}{N}\sum_{n=1}^N\frac{x_{ni}^2}{\sigma_i^2}}=\sqrt{\frac{1}{\sigma_i^2}*(\frac{1}{N}\sum_{n=1}^Nx_{ni}^2)}=1\)

输入白化

如果输入特征之间相关性较高,那么在做正则化时对不同特征的独立惩罚就很难做到,白化的作用就是减少特征间的相关性,同时使得所有特征具有相同的方差

白化是使得输入每个维度相同重要,降维是衡量输入维度的重要性然后舍弃不重要的维度,所以降维不应该在白化之后

以下讨论建立在定心的基础上

协方差矩阵\(\mathtt{C=\frac{1}{N}\sum_{n=1}^{N}x_nx_n^T}=\frac{1}{N}X^TX\)

\(C_{ij}=cov(x_i,x_j)\) 该协方差描述了\(x_i\)和\(x_j\)的相关性
\(cov(x,y)=E(xy)-E(x)E(y)=E(xy)\)这里已经定心过,所以\(E(x)=E(y)=0\)
\(\mathtt{x_nx_n^T}=\begin{bmatrix}{x_1x_1}&{x_1x_2}&{\cdots}&{x_2x_d}\\{x_2x_1}&{x_2x_2}&{\cdots}&{x_2x_d}\\{\vdots}&{\vdots}&{\ddots}&{\vdots}\\{x_dx_1}&{x_dx_2}&{\cdots}&{x_dx_d}\\\end{bmatrix}\) 这下看懂了吧

转换后输入\(\mathtt{z_n=C^{-\frac{1}{2}}x_n}\)(这里矩阵的开方我也不是很懂)

或者\(\mathtt{Z=XC^{\frac{1}{2}}}\)

白化后的输入的协方差矩阵

\(\mathtt{\frac{1}{N}Z^TZ=C^{-\frac{1}{2}}(\frac{1}{N}X^TX)C^{-\frac{1}{2}}=C^{-\frac{1}{2}}CC^{-\frac{1}{2}}=(C^{-\frac{1}{2}}C^{\frac{1}{2}})(C^{\frac{1}{2}}C^{-\frac{1}{2}})=E}\)

最后得到一个单位矩阵,即\(cov(x_i,x_j)=\begin{cases}1,i=j\\0,i\neq{j}\end{cases}\),这说明每个输入特征只与自身相关,与其它特征不相关