PAC(Probably Approximately Correct)

PAC(Probably Approximately Correct)

  PCA,即主成分分析,是用来提取特征的一种算法,属于无监督学习。
  效果很好,开创了子空间方法。

PCA的起源

  PAC模型是计算学习理论中常用的模型,是Valiant牛在1984年提出来的,他认为“学习"“是模式明显清晰或模式不存在时仍能获取知识的一种“过程”,并给出了一个从计算角度来获得这种“过程”"的方法。
  这种方法包括:
  (1)适当信息收集机制的选择;
  (2)学习的协定;
  (3)对能在合理步骤内完成学习的概念的分类。

PCA的概念讲解

  PAC学习的实质就是在样本训练的基础上,使算法的输出以概率接近未知的目标概念。
  PAC学习模型是考虑样本复杂度(指学习器收敛到成功假设时至少所需的训练样本数)和计算复杂度(指学习器收敛到成功假设时所需的计算量)的一个基本框架,成功的学习被定义为形式化的概率理论。(来自论文《基于Adaboost的人脸检测方法及眼睛定位算法研究》)
  简单说来,PAC学习模型不要求你每次都正确,只要能在多项式个样本和多项式时间内得到满足需求的正确率,就算是一个成功的学习。

实现过程

  如果不取所有的特征值的话,原矩阵维数肯定会变小。所以PCA也用来数据降维。
  1)对目标矩阵按行或列去均值(让他们的均值为0)
  2)求目标矩阵的协方差
  3)对协方差矩阵求特征值和特征向量。
  4)取需要的特征值对应的特征向量构成矩阵。
  5)把原矩阵映射(乘)到特征向量构成的矩阵上。

与其他聚类算法的比较

  主成分分析:通过保留具备最大方差和互相不相关的特征之间的线性连接,而帮助生成数据集的低维表示。该线性降维技术有助于理解无监督学习中的隐变量交互。
  k 均值聚类:根据数据到集群中心的距离将其分成 k 个不同的集群。
  层次聚类:通过数据的层级表示而构建不同的集群。

SVD与PCA的联系

  只需要对矩阵做做奇异值分解(SVD),把小的奇异值扔掉,就能得到包含的主要信息。这个过程在统计里面也叫 PCA(主成分分析)。

  大数据的「大」体现在两个方面,量多、维度高。然而数据再大也不是随机的,它们通过结构承载信息。高维数据并不填满整个空间,由于存在特定的生成机制,其自由度其实很低。在图像里,这些特点是能被「看」到的:诸如对称性、周期性这样规律在图像的局部和整体都有体现。如何通过数学建模量化描述这些特点呢?
  举个例子,把一张图像用 100*100 的矩阵表示,线性代数告诉我们,周期性会使它的各列线性相关,矩阵的秩肯定比矩阵的规模小很多,可能只有 10。也就是说,如果你把每一列看成一个向量,看成一个 100 维空间中的点,当我们把这些点画出来,会发现他们不是散布得到处都是,而是集中在某一个子空间中,这个子空间就是我们要找的低维结构。
  如果我的数据来自上述的低秩结构,哪怕加上一些高斯噪声,我只需要对矩阵做做奇异值分解(SVD),把小的奇异值扔掉,就能得到包含的主要信息。这个过程在统计里面也叫 PCA(主成分分析)。

PCA的碎片知识点

  使用PCA将隐藏表示降维到2维,然后从中生成动画。PCA的一个好处是它不具有概率性,因此最终的表示是一致的。然而,PCA中的局部邻域不如T-SNE那样可解释。

  数据简化算法有助于减少对象的数据集边缘和折线(拟合线段)以及圆弧到边缘。直到一个角落、线段与边缘对齐,并在此之后开始一个新的线段。圆弧与类似于弧的线段的序列对齐。以各种方式,将图像的特征(圆弧和线段)组合以形成用于确定物体的特征。

  通过PCA(原理分量分析)和HOG(定向梯度直方图),支持向量机(SVM)是ADAS中常用的识别算法。我们也经常用到KNN分类算法和贝叶斯决策规则。

  SVM依赖于定义决策界限的决策平面概念。决策平面分离由不同的类成员组成的对象集。下面是一个示意图。在这里,物体属于RED或GREEN类,分离边界线将红色和绿色物体分开。任何落在左侧的新对象都标记为RED,如果它落在右边,则将其标记为GREEN。"

PCA中截距项的含义

  是让每个样本都减去样本均值,这正是“样本中心化”的含义。既然我们已经知道求出来的截距就是样本均值,所以干脆一开始就对样本进行中心化,这样在使用PCA的时候就可以忽略截距项 b 而直接使用 z_i=W^Tx_i ,变量就只剩下 W 了。教科书上讲解PCA时一般都是上来就说“使用PCA之前需要进行样本中心化”,但是没有人告诉我们为什么要这样做,现在大家应该明白为什么要进行中心化了吧。


主成分回归(PCR)

  可以看成一种从大型变量集合中导出低维特征集合的方法。属于监督学习。
  数据中的第一主成分(first principal component)是指观察数据沿着这个变量方向的变化最大。换言之,第一主成分是最接近拟合数据的线,总共可以用 p 个不同的主成分拟合。第二主成分是和第一主成分不相关的变量的线性组合,且在该约束下有最大的方差。其主要思想是主成分能在各个互相垂直的方向使用数据的线性组合捕捉到最大的方差。使用这种方法,我们还能结合相关变量的效应从数据中获取更多的信息,毕竟在常规的最小二乘法中需要舍弃其中一个相关变量。
  上面描述的 PCR 方法需要提取 X 的线性组合,以获得对的预测器的最优表征。由于 X 的输出 Y 不能不能用于帮助决定主成分方向,这些组合(方向)使用无监督方法提取。即,Y 不能监督主成分的提取,从而无法保证这些方向是预测器的最优表征,也无法保证能获得最优预测输出(虽然通常假定如此)。偏最小二乘法(PLS)是一种监督方法,作为 PCR 的代替方法。和 PCR 类似,PLS 也是一种降维方法,它首先提取一个新的较小的特征集合(原始特征的线性组合),然后通过最小二乘法将原来的模型拟合为一个新的具有 M 个特征的线性模型。

猜你喜欢

转载自blog.csdn.net/wydbyxr/article/details/82908568
PAC
今日推荐