模式识别：机器自动识别（使机器具有抽象能力）

目的：用计算机对物理对象进行分类，在错误概率最小的情况下，使识别结果尽量与客观情况相符合

参照基准：人

识别方法：1.数据聚类（K-means）

2. 统计分类（SVM等）

3. 结构模式识别（结构匹配，考虑识别对象各部分间关系，制定关系规则，句法识别）

4. 人工神经网络（神经元，调节连接权重）

最基本方法：计算

数学化形式：Y=F（X） X：特征；Y：标记；F：判别方法，

特征空间和解释空间之间的关系，成为假说

获得假说的方法：1. 监督学习（有已知训练，对未知测试）

2. 非监督学习（“物以类聚”，“亲疏有别”）

基本构成：数据量化——>预处理（去燥）——>特征提取和选择——>分类器设计/分类决策

测量空间：量化后的原始数据组成的空间

特征空间：分类识别赖以进行的空间

模式表示：维数较高的测量空间——>维数较低的特征空间

聚类

依据：模式样本相似度

适用：样本较少，且典型性好

1、关键：选取合适的特征（为降低复杂度，去掉相关度较高的特征，降维处理）

降维方法：相关性系数衡量

相关系数：

协方差：Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}

方差：Var[X]=1/N(x-E(x))^2

r 越大，相关性越强，r=1,完全正相关

2. 对选取特征进行数字化（连续量化或离散量化）

3.模式相似度测度和聚类准则

相似度测度

1）欧氏距离

2）马氏距离D^2=(x-m)^T*C^-1*(x-m) 注：m均值，C协方差矩阵

3）一般化的明氏距离（欧氏为特殊的）

4）角度相似性函数（求余弦值）具有旋转平移不变性

准则：试探方法和聚类准则函数法

1）试探方法：直观感觉或经验，设置测度阈值，根据相似度测度值聚类（类别由少到多）

（1）临近相似度试探方法（类似西瓜书中的P213，密度聚类）

优点：计算简单，有先验的情况下，选取正确阈值和起始点（选点主观随机），

缺点：实际中对样本要求太高，一般很少用

影响因素：初始点位置；阈值大小；样本比较次序：样本分布几何性质

（2）最大最小距离算法

以试探类间欧氏距离为最大作为预选出聚类中心的条件（确定一个点为聚类中心，再选离它最远的作为第二个聚类中心）

系统聚类法：样本按距离准则逐步分类，类别由多到少（初始每个样本都是一类）（类似西瓜书中P215层次聚类）

2）聚类准则函数法：定义反应类别件相似度或分离性的函数，使样本和类别之间建立函数，转化为优化问题，求极值

聚类准则函数法

注：公式图来自 https://wenku.baidu.com/view/49408dfb647d27284a735198.html

求J的最小时的聚类形式

类间距离判断：最短距离法（不同类离得最近的两个位置特征距）

最长距离法、中间距离法、重心法、类平均距离法

动态聚类法

K-means聚类算法（聚类中心向量由动态计算得来））

伪代码：

输入：样本即 X={x1,x2,...,xn}; 聚类簇数k;

过程：

从X中随机选定k个样本作为初始均值向量

repeat

for i=1,2...,m do

计算xi到每个均值向量的距离；

根据最小距离，放入该簇中；

end

for j=1,2...,k do

计算每个簇的均值向量；

end

until 每个簇均值不再变化；

输出当前簇

聚类评价

1. 聚类中心之间的距离（越大越好）

2. 聚类域中的样本数目（可参考排除噪声点）

3. 聚类域内样本的距离方差（方差要较小）

模式识别基本概念+聚类知识模式识别笔记（一）

聚类

聚类评价

猜你喜欢

模式识别基本概念+聚类知识 模式识别笔记（一）

聚类

聚类评价

猜你喜欢

模式识别基本概念+聚类知识模式识别笔记（一）