3.1 Linear Basis Function Models(PRML 系列----3.1.5 Multiple outputs)

multiple, independent regression problems.

共享相同的基函数
在这里插入图片描述
在这里插入图片描述
β β \beta求导可计算\beta估计值

多变量解耦:原因在于 W ( M K ) W(M*K) 只定义了高斯噪声的输出,只考虑单变量即可

在这里插入图片描述
W W K K个变量之间的协方差解偶证明
在这里插入图片描述 p ( t x , W , β ) = N ( t W T ϕ ( x ) , β 1 I ) p(\mathbf{t} | \mathbf{x}, \mathbf{W}, \beta)=\mathcal{N}\left(\mathbf{t} | \mathbf{W}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x}), \beta^{-1} \mathbf{I}\right) , t K W T ϕ ( x ) 对于单个样本来说,上面式子中\mathbf{t}表示K个变量,其均值\mathbf{W}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x}) K , 为K维向量,协方差矩阵为对角阵,说明变量之间相互独立
在这里插入图片描述

简单证明如下

d A = t r ( A d A ) , A A = ( A ) T = A ( A 1 ) T , A = Σ = 用到的公式:d|A|=tr(A^*dA),\frac{\partial{\mathbf{|A|}}}{\partial\mathbf{A}}=(A^*)^T=|A|(A^{-1})^T,特别当A=\Sigma为对称矩阵时,行列式对矩阵的导数=行列式*矩阵的逆
A A 1 = I AA ^{-1}=\mathrm{I} d A A 1 + A d A 1 = 0 dAA ^{-1}+AdA^{-1}=\mathrm{0} d A 1 = A 1 d A A 1 dA^{-1}=-A^{-1}dAA ^{-1}
有了以上公式对下式中的 Σ \mathbf\Sigma 求导
ln L ( W , Σ ) = N 2 ln Σ 1 2 n = 1 N ( t n W T ϕ ( x n ) ) T Σ 1 ( t n W T ϕ ( x n ) ) \ln L(\mathbf{W}, \mathbf{\Sigma})=-\frac{N}{2} \ln |\mathbf{\Sigma}|-\frac{1}{2} \sum_{n=1}^{N}\left(\mathbf{t}_{n}-\mathbf{W}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right)^{\mathrm{T}} \mathbf{\Sigma}^{-1}\left(\mathbf{t}_{n}-\mathbf{W}^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{n}\right)\right)

A = ( t n W T ϕ ( x n ) ) 令A=(\mathbf{t}_n-\mathbf{W}^{\mathrm{T}}\boldsymbol{\phi(\mathbf{x}_n)})
f = A T Σ 1 A f=A^{\mathrm{T}}\mathbf{\Sigma}^{-1}A d f = A T d Σ 1 A = t r ( A T d Σ 1 A ) = t r ( A A T d Σ 1 ) df=A^{\mathrm{T}}d\mathbf{\Sigma}^{-1}A=tr(A^{\mathrm{T}}d\mathbf{\Sigma}^{-1}A)=tr(AA^{\mathrm{T}}d\mathbf{\Sigma}^{-1}) = t r ( A A T Σ 1 d Σ Σ 1 ) = t r ( Σ 1 A A T Σ 1 d Σ ) =-tr(AA^{\mathrm{T}}\mathbf{\Sigma}^{-1}d\mathbf{\Sigma}\mathbf{\Sigma}^{-1})=-tr(\mathbf{\Sigma}^{-1}AA^{\mathrm{T}}\mathbf{\Sigma}^{-1}d\mathbf{\Sigma}) f Σ = Σ 1 A A T Σ 1 \frac{\partial f}{\partial \mathbf{\Sigma}}=-\mathbf{\Sigma}^{-1}AA^{\mathrm{T}}\mathbf{\Sigma}^{-1}
因此有:
N 2 Σ 1 + 1 2 n = 1 N Σ 1 A A T Σ 1 = 0 -\frac{N}{2}\mathbf{\Sigma}^{-1}+\frac{1}{2}\sum_{n=1}^{N}\mathbf{\Sigma}^{-1}AA^{\mathrm{T}}\mathbf{\Sigma}^{-1}=0 n = 1 N Σ 1 + n = 1 N Σ 1 A A T Σ 1 = 0 \sum_{n=1}^{N}\mathbf{\Sigma}^{-1}+\sum_{n=1}^{N}\mathbf{\Sigma}^{-1}AA^{\mathrm{T}}\mathbf{\Sigma}^{-1}=0 n = 1 N Σ 1 ( I A A T Σ 1 ) = 0 -\sum_{n=1}^{N}\mathbf{\Sigma}^{-1}(\mathrm I-AA^{\mathrm{T}}\mathbf{\Sigma}^{-1})=0 n = 1 N ( I A A T Σ 1 ) = 0 \sum_{n=1}^{N}(\mathrm I-AA^{\mathrm{T}}\mathbf{\Sigma}^{-1})=0 N I = n = 1 N A A T Σ 1 N\mathrm I=\sum_{n=1}^{N}AA^{\mathrm{T}}\mathbf{\Sigma}^{-1} Σ = 1 N n = 1 N A A T \mathbf{\Sigma}=\frac{1}{N}\sum_{n=1}^{N}AA^{\mathrm{T}}

发布了239 篇原创文章 · 获赞 16 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/qq_38662930/article/details/103604707