机器学习笔记 第14-15课

(1)因子分析模型的EM算法参数求解

上节课构造了因子分析模型。

n维随机变量x,d维因子变量(隐藏变量)z~N(0,I),其中z^{i} ~ N(0,1)

x = \mu +\Lambda *z + \varepsilon,其中\varepsilon~N(0,\Psi

推导得出 

 

即要求解  \mu\Lambda ,\Psi 三个参数,这里注意psi是对角矩阵。利用最大似然法无法得到闭合解。结合z可看做隐藏变量,利用EM算法进行参数的求解。推导过程较为繁琐,这里要注意以下几点不同:

(1)z^{i} 是连续性随机变量。在E-step中,利用z|x的条件分布进行计算,需要计算Q(i)和均值和协方差。

(2)在M-step中,如果将这些积分视为期望,将会简化接下来的推导。

(3)在M-step中,推导过程是通过求解特定的最大化问题完成的,并非是在每个地方带入期望值

(2)PCA(principle components analysis)

PCA与因子分析一样,作为一种数据降维的手段。当数据的特征较多时,数据的特征之间常常具备着相关性,没必要利用所有特征进行训练。例如可以利用PCA选取前k个包含信息量较多的特征(实际操作是选取协方差阵按特征值从大到小排序的前k个特征,从信息的角度理解,特征值较大,矩阵在该特征向量的方向上变化较大,包含的信息也就更多),将原始数据从n维特征映射为k维特征。从几何上面理解,PCA所要做的是找个一个新的特征轴,将原有的数据投影到该轴上,使得投影到新轴上的数据具备较大的方差(或者另一种理解是,所要找的轴使得原有数据到该轴的距离之和最小)。

(i)PCA的预处理步骤:首先对于每个样本进行标准化 (减去均值 除以标准差)

Xj = (Xj - \mu j)/\sigma j

(ii)构建协方差矩阵(\Sigma = A^{\top } * A),求解特征值与特征向量。其实这里为什么会采用A^{\top }*A的方式构建矩阵进行求解呢,考虑到PCA的优化条件:使得各个点到主轴的距离最小,可利用拉格朗日乘数法进行求解,得出的结果恰好为求解该特征方程。在求解协方差矩阵的特征自与特征向量时,存在的一个问题便是,假设特征数m=10000,则\Sigma为10000*10000的矩阵,求解不方便(可采用奇异值分解代替)。假设选取前k的特征向量。(\mu = \mu _{1},,,\mu _{k}

(iii)将原有特征进行映射。X* = \mu ^{\top }* X

 PCA在文本分析中的一个应用便是LSI(Latent semantic Indexing)。利用LSI处理文本信息时,不可避免的会遇到高维向量的问题,此时可利用奇异值分解进行\Sigma的特征向量求解。

关于奇异值分解(Singular Value Decomposition,SVD),与求解特征值要求矩阵必须为方阵不同,SVD针对任意m*n矩阵。假设原有待分解矩阵A(m*n),SVD为:A=UDV^{\top },其中U为m*m,D为m*n对角阵,V为n*n。D中对角线元素即为矩阵A的奇异值。

关于FA(Factor Analysis)与PCA的一个小总结:

(i)因子分析:因子分析的出发点是认为在诸多的特征之中存在着一个或多个潜在的变量,这些变量是对于事物的特征是真正有影响的因素,称为因子。为了求解因子,需要联合现有特征构建方程求解。

(ii)PCA:PCA则从另一种思路出发,考虑通过将多维数据进行多维空间向低维子空间的变换,以此找到特征变换方差最大(包含信息量最大)的子空间进行计算(注意,从高维向低维的变换不可避免的会带来一些信息量的丢失)。

二者看似都是降维的一种手段,实则出发点与思想完全不同。

(3)ICA(indenpendent components analysis)

假设无法得到原有数据集S,只能得到的数据集X是原有数据集S各个特征的线性组合的结果。即假设S = {S1,S2},而能够获得的数据集X = {S1+S2,S1-S2}。ICA的目的便是如何根据X,从中分离得出S。直观上看,这很难做到,因为缺乏很多先验的知识。因此ICA的一个重要假设便是已知S的CDF为某个函数,以此作为突破口,利用最大似然求解参数,从中分离出S。这里的关键在于若假设原有的S是高斯型分布,则无法得出结果(因为多个高斯型的分布叠加在一起是对称且旋转式,在每个方向上一致,因此无法进行分离),因此常选用的分布有Sigmoid与拉普拉斯分布。

(4)通过这1-15课的学习,结合相关书籍和网络资源,也算是对于机器学习有了一个入门。

 

 

 

 

 

 

猜你喜欢

转载自blog.csdn.net/OliverLee456/article/details/81737403
今日推荐