西瓜书第3章公式推导二

版权声明:本博所有原创文章,欢迎转载,转载请注明出处 https://blog.csdn.net/qq_34553043/article/details/82153896

西瓜书第3章公式推导二

3.3.1 LDA(线性判别分析—–二分类)

给定训练集,将样本投影到一条直线上,使得投影后的异类样本尽可能远离

a r g m a x ( | | w T u 0 w T u 1 | | )
同类样本尽可能靠近
a r g m i n ( w T 0 w + w T 1 w )
使得对新样本进行分类时,对其投影到这条直线上,根据投影位置确定类别。其中 X i , u i , i
(18) J = | | w T u 0 w T u 1 | | 2 w T 0 w + w T 1 w (19) = w T ( u 0 u 1 ) ( u 0 u 1 ) T w w T ( 0 + 1 ) w

定义 类内散度矩阵
(20) S w = 0 + 1 (21) = x X 0 ( x u 0 ) ( x u 0 ) T + x X 1 ( x u 1 ) ( x u 1 ) T

定义 类间散度矩阵
S b = ( u 0 u 1 ) ( u 0 u 1 ) T

则目标为确定J最大时w的值
J = w T S b w w T S w w

w T S w w = 1 原式变为
m i n ( w T S b w )
s . t . w T S w w = 1

根据拉格朗日乘子式可得
J = w T S b w + λ ( w T S w w 1 )

J w = 0 S b w = λ S w w ( u 0 u 1 ) ( u 0 u 1 ) T w = λ S w w
因为 ( u 0 u 1 ) T w 为常数,设为 λ w
( u 0 u 1 ) λ w = λ S w w
常数 λ λ w w
w = S w 1 ( u 0 u 1 )

若存在 S w 不可逆,则利用奇异值分解(SVD)来求得。

3.3.2 LDA(多分类问题)

对于多分类的问题, m i 表示第i类样本的个数。μ 为所有样本的样本均值,而 u i 则表示第i类样本的样本均值。此时我们得到的都是矩阵而不再是二分类的实数。类间散度矩阵:

S b = i = 1 N m i ( u i u ) ( u i u ) T
类内散度矩阵:
S w = i = 1 N x X i ( x u i ) ( x u i ) T

优化目标为
J m a x = | W T S b W | | W T S w W |
J m a x = t r ( W T S b W ) t r ( W T S w W )

参照二分类求解,可转化为
(9) S b W = λ S w W (10) λ = S w 1 S b

(11) W = J m a x = | W T S b W | | W T S w W | (12) = | W T λ S w W | | W T S w W | (13) = λ

S b = i = 1 N m i ( u i u ) ( u i u ) T

可以看出, S b 是K个秩一矩阵 ( m k m ) ( m k m ) T 的和(因为 ( m k m ) 是秩一的向量),所以它的秩最大为K。并 N m = N 1 m 1 + N 2 m 2 + + N k m k ,这K项中有一项可以被线性表出。 所以, S b 的秩最大为K-1。
所以参数W的值闭式解为矩阵 S ω 1 S b 的d个最大特征值所对应的特征向量,其中d<=c-1。 因为特征向量的个数通常要远远少于原有数据特征的个数,因此线性判别分析也被视为一种经典的监督降维技术。

可参考教科书上的LDA为什么长这个样子?

猜你喜欢

转载自blog.csdn.net/qq_34553043/article/details/82153896