楔子:读万卷书与行万里路。不读书弱于方法论,行路如同看热闹。 不行路弱于感性认识, 读书一知半解很难深入。
一、模式识别
模式识别 = 特征(本质)分类
模式识别:对待识别对象的原始信息,根据实际需求提取特征向量,并设计分类器。
特征是描述模式的最佳方式,我们通常认为特征的各个维度能够从不同的角度描述模式,在理想情况下,维度之间是互补完备的。特征提取的主要目的是降维。特征抽取的主要思想是将原始样本投影到一个低维特征空间,得到最能反应样本本质或进行样本区分的低维样本特征。
即模式识别任务的solution:特征提取,特征降维,特征分类。
que.1 分类、回归、预测问题的区别?
que.2 非线性特征抽取的核技巧,线性核空间映射非线性的方法。
二、图像特征
图像特征:颜色特征、纹理特征、形状特征、空间关系特征。
颜色特征:像素点特征,常用描述方法RGB直方图。
形状特征:包括轮廓特征(针对外边界)和区域特征(针对形状区域)
空间关系特征:多目标间相对/绝对空间位置关系,如姿态估计。
三、数据降维
1、维度
数据维度:数据提取特征向量中,变量的个数
状态空间维度:映射关系中,输入变量的个数
2、强化学习的维度问题
传统的强化学习处理的问题往往状态空间和动作空间离散且维数不高,可以使用Q表存储每个状态对应的Q值。
现实中的问题往往有高维的状态空间和连续的动作空间。
如围棋324格,每格有空、黑、白3个状态。输入需要告诉智能体全局状态,即324个变量的取值,状态空间为324维,输出为二维,即横纵坐标,对应到落子位置。如像素游戏的输入维度等于像素点的个数,输入全图信息,输出一维动作,上下左右四个取值。端到端的控制要求高维处理能力,如图像、语音输入。
总结:深度学习富于感知能力,能够观测高维空间。(可以理解为将高维空间问题通过函数拟合降维到低维空间) 跟深度学习结合之后,DRL拥有解决高维实际问题的能力。
参考博文:https://blog.csdn.net/count_on_me/article/details/82956746 深度强化学习
3、高维数据可视化
在如今的大数据时代,数据的一个特性就是维度高,如一个电商平台中商品的信息就高达上百个维度,一幅图像的维度就是像素点的个数,高达上百到上万。而人类最直观的是理解二维空间中的数据,这就需要将高维的数据可视化,从直觉上去感受数据的分布情况等。
因此,需要将高维的数据降到二维,最简单的算法是主成分分析(PCA)。下面讲解的是目前主流的数据降维算法 t-SNE (t-distributed Stochastic Neighbor Embedding),最原始的论文如下,目前学术界也有一些相关的研究
参考传送门:https://zhuanlan.zhihu.com/p/57503336
4、机器学习是如何降维的
图像问题实际是特征(颜色图形特征等)降维的问题,还原图像最本质的特征。
5、特征维度的影响
特征维度越高,分类性能越好,数据泛化能力越差,越容易过拟合。
高维空间训练形成的线性分类器,相当于在低维空间的一个复杂的非线性分类器。这种分类器过多强调了训练集的准确率甚至于对一些错误/异常的数据也进行了学习,而正确的数据却无法覆盖整个特征空间。为此,这样得到的分类器在对新数据进行预测时将会出现错误。这种现象称之为过拟合,同时也是维灾难的直接体现。
如果能获取无限多的样本,就可以从无限多的特征构造出完美的分类器。如果训练样本较少,那就要采用较少的特征训练分类器。如果N个样本足以覆盖单位长度的一维空间,那么在二维和三维空间上就需要N^2和N^3个样本才能达到与一维空间相同的密度分布。即训练样本的数量和特征的维数呈指数关系。
参考博文:
https://blog.csdn.net/qq_42379006/article/details/81044338 数据处理中的维数灾难
6、哪个才是解决回归问题的最佳算法?线性回归、神经网络还是随机森林?
传送门:https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/79493494