模式识别（二）特征矢量与空间

1.2特征矢量和特征空间
a.特征矢量：
一个分析对象的n个特征量测值分别为x1,x2,x3,xn，它们构成一个n维特征矢量x，x=（x1,x2,x3,xn）T,x是原对象（样本）的一种数学抽象，用来代表原对象，即为原对象的模式。
b.特征空间：
对某对象的分类识别是对其模式，即它的特征矢量进行分类识别。各种不同取值的x的全体构成了n维空间，这个n维空间就是特征空间，特征矢量x便是特征空间中的一个点，特征矢量也称特征点。
c.随机变量：
由于量测系统随机因素的影响及同类不同对象的特征本身就是在特征空间散布的，同一个对象或同一类对象的某特征值是随机变量。由随机分量构成的矢量称为随机矢量。同一类对象的特征矢量在特征空间中是按某种统计规律随机散步的。
随机矢量的分布函数：
在这里插入图片描述
联合概率密度函数：

随机矢量的数字特征：
1.均值矢量

2.条件期望：

3.协方差矩阵：

2.1聚类分析：
a.基本思想：
假设：对象集客观存在着若干个自然类，每个自然类中个体的某些属性具有较强的相似性。
原理：将给定模式分成若干个组，每组内的模式是相似的，而组间各模式差别较大。
特点：1.相似的归为一类；2.模式相似性的度量和聚类算法；3.无监督分类；
特征量的类型;
1.物理量----重量、长度、速度
2.次序量----等级、技能、学时
3.名义量----性别、状态、种类
举例：对动物进行分类:
在这里插入图片描述
按照不同的特征的分类：

也可以将上述两种特征结合起来进行分类：

在这里插入图片描述
总结：选择什么特征？选择多少个特征？选择什么样的量纲？选择什么样的距离测度？都会对分类结果产生极大的影响。
聚类算法的主要应用场合：
a.在一些情况下，无法获得训练样本；
b.可以获得样本，但耗费较多人、财力和时间；
c.作为后续较复杂分类算法的预处理；
d.用于数据压缩；
e.用于数据挖掘，知识发现；
2.2模式相似性测度
用于描述各模式之间特征的相似程度：
1.距离测度；
2.相似测度；
3.匹配测度；
a.距离测度（差值测度）
设矢量x和矢量y的距离记为d(x,y)；
常用的距离测量测度有：
1.欧式距离：
在这里插入图片描述
2.绝对值距离（街坊距离或Manhattan距离）

3.切式距离

4.明式距离

5.马氏距离

马氏距离的性质：对一切非奇异线性变换都是不变的。即，具有坐标系比例、旋转、平移不变性，并且从统计意义上尽量去掉了分量间的相关性。
举例：
在这里插入图片描述

模式识别（二）特征矢量与空间

猜你喜欢