模式识别:机器自动识别(使机器具有抽象能力)
目的:用计算机对物理对象进行分类,在错误概率最小的情况下,使识别结果尽量与客观情况相符合
参照基准:人
识别方法:1.数据聚类 (K-means)
2. 统计分类(SVM等)
3. 结构模式识别(结构匹配,考虑识别对象各部分间关系,制定关系规则,句法识别)
4. 人工神经网络 (神经元,调节连接权重)
最基本方法:计算
数学化形式:Y=F(X) X:特征;Y:标记 ;F:判别方法,
特征空间和解释空间之间的关系,成为假说
获得假说的方法:1. 监督学习(有已知训练,对未知测试)
2. 非监督学习(“物以类聚”,“亲疏有别”)
基本构成:数据量化——>预处理(去燥)——>特征提取和选择——>分类器设计/分类决策
测量空间:量化后的原始数据组成的空间
特征空间:分类识别赖以进行的空间
模式表示:维数较高的测量空间——>维数较低的特征空间
聚类
依据:模式样本相似度
适用:样本较少,且典型性好
1、关键:选取合适的特征(为降低复杂度,去掉相关度较高的特征,降维处理)
降维方法:相关性系数衡量
相关系数:
协方差:Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}
方差:Var[X]=1/N(x-E(x))^2
r 越大,相关性越强,r=1,完全正相关
2. 对选取特征进行数字化(连续量化或离散量化)
3.模式相似度测度和聚类准则
相似度测度
1) 欧氏距离
2) 马氏距离D^2=(x-m)^T*C^-1*(x-m) 注:m均值,C协方差矩阵
3)一般化的明氏距离(欧氏为特殊的)
4)角度相似性函数 (求余弦值)具有旋转平移不变性
准则:试探方法和聚类准则函数法
1)试探方法:直观感觉或经验,设置测度阈值,根据相似度测度值聚类(类别由少到多)
(1)临近相似度试探方法(类似西瓜书中的P213,密度聚类)
优点:计算简单,有先验的情况下,选取正确阈值和起始点(选点主观随机),
缺点:实际中对样本要求太高,一般很少用
影响因素:初始点位置 ;阈值大小 ;样本比较次序 : 样本分布几何性质
(2)最大最小距离算法
以试探类间欧氏距离为最大作为预选出聚类中心的条件(确定一个点为聚类中心,再选离它最远的作为第二个聚类中心)
系统聚类法:样本按距离准则逐步分类,类别由多到少(初始每个样本都是一类)(类似西瓜书中P215层次聚类)
2)聚类准则函数法:定义反应类别件相似度或分离性的函数,使样本和类别之间建立函数,转化为优化问题,求极值
聚类准则函数法
注:公式图来自 https://wenku.baidu.com/view/49408dfb647d27284a735198.html
求J的最小时的聚类形式
类间距离判断:最短距离法(不同类离得最近的两个位置特征距)
最长距离法、中间距离法、重心法、类平均距离法
动态聚类法
K-means聚类算法(聚类中心向量由动态计算得来))
伪代码:
输入:样本即 X={x1,x2,...,xn}; 聚类簇数k;
过程:
从X中随机选定k个样本作为初始均值向量
repeat
for i=1,2...,m do
计算xi到每个均值向量的距离;
根据最小距离,放入该簇中;
end
for j=1,2...,k do
计算每个簇的均值向量;
end
until 每个簇均值不再变化;
输出 当前簇
聚类评价
1. 聚类中心之间的距离(越大越好)
2. 聚类域中的样本数目(可参考排除噪声点)
3. 聚类域内样本的距离方差(方差要较小)