机器学习课程学习笔记

模式识别

基本定义

根据已有知识的表达，针对待识别模式，判别决策其所属的类别或者预测其对应的回归值。
根据任务，模式识别可以划分为“分类”和“回归”两种形式，其中分类的输出量是离散的，回归的输出量是连续的。

数学解释

模式识别可以看作一种函数映射$f(x)$将待识别模式$x$从输入空间映射到输出空间，函数$f(x)$是关于已有知识的表达。其输出可以是确定值也可以是概率值。

模型

已有知识的表达方式，函数$f(x)$

特征提取

从原始输入数据提取更有效的信息

特征向量

多个特征构成的向量

特征空间

从坐标原点到任意一点之间的向量即为该模式的特征向量

特征向量相关性

点积

表征两个特征向量的共线性，即方向上的相似程度。
代数定义：
\[ x \cdot y=x^Ty=y^Tx=\sum^{p}_{j=1}x_jy_j \]
几何定义：
\[ x \cdot y=||x||||y||cos\theta \]
两个向量的夹角：反映两个向量在方向上的差异性。
\[ cos\theta=\frac{x^Ty}{||x||||y||} \]

特征向量投影

将向量x垂直投影到向量y方向上的长度\[ x_0=||x||cos\theta \]

残差向量

向量x分解到向量y方向上得到的投影向量和原向量x的误差：
\[ r_x=x-x_0=x-\frac{||x||cos\theta}{||y||}y \]

特征向量的欧式距离

表征两个向量之间的相似程度（考虑方式和长度）
\[ d(x,y)=(x-y)^T(x-y)=\sum^{p}_{j=1}(xj-yj)^2 \]

机器学习

基本内容

模型的参数与结构

\[ y=f(x|\theta) \]
参数：$\theta={\theta_1.…,\theta_M}$

样本量和模型参数量的关系

相等：具有唯一解，大于：无准确解，小等于：无数个解或无解。

目标函数$L(\theta|{x_i})$

又称为代价函数或损失函数，作为选择最优参数解的一个标准

评估模型性能

方法

留出法：将数据集随机划分为训练集和测试集，利用训练集训练模型，用测试集评估，取统计值。
k折交叉验证：将数据集分割成k个子集，从其中选取单个子集作为测试集，其他k-1个子集作为训练集。
留1验证：选取数据集中的一个样本做测试集，剩余的做训练集，具有确定性，存在分层问题问题。

指标

准确度：$A=\frac{TP+TN}{TP+TN+FP+FN}$
查准率：$S=\frac{TN}{TN+FP}$
召回率：$R=\frac{TP}{TP+FN}$
F-Score:$F=\frac{(a^2+1)\times precision\times recall}{a^2\times precision+recall}$，至a=1，得到F1-score。
PR曲线：召回率-精度
ROC曲线：FPR-TPR
AUC：曲线下方面积

MED分类器

利用欧式距离作为度量标准，最小欧式距离分类器，会存在特征变化的不同及特征之间的相关性，可以通过特征白化和特征解耦来去除特征间的相关性。
\[ y\in C_1,\quad if\quad d(y,C_1)<d(y,C_2) \]

MICD分类器

利用马氏距离作为度量标准，最小类内距离分类器，存在均值一样，会选择方差较大的类
马氏距离：
\[ d^2_E(y_1.y_2)=(x_1-x_2)^T\sum^{-1}_{x}(x_1-x_2) \]
\[ x\in C_1,\quad if\quad d_M(x,C_1)<d_M(x,C_2) \]

贝叶斯规则

\[ p(C_i|x)=\frac{p(x|C_i)p(C_i)}{p(x)} \]

$p(C_i)$先验概率
$p(x|C_i)$观测似然概率
$p(x)=\sum_jp(x|c_j)p(c_j)$，所有类别样本x的边缘概率

MAP分类器

利用后验概率作为度量标准，最大后验概率分类器
\[ x\in argmax p(C_i|x) \]

决策边界

\[ p(x|C_1)p(C_1)-p(x|C_2)p(C2)=0 \]

决策误差

为未选择的类所对应的后验概率
\[ p(error|x)= \begin{cases} p(C_2|x) & \text{if decide $x\in C_1$} p(C_1|x) & \text{if decide $x\in C_2$} \end{cases} \]

最大似然估计

给定的N个训练样本都是符合iid条件的，从$p(x|\theta)$采样
联合概率密度：
\[ p(x_1,x_2,…,x_N|\theta)=\prod^N_{n=1}p(x_n|\theta) \]
目标函数：
\[ \theta_ML=argmax\prod^N_{n=1}p(x_n|\theta) \]

阅读

人脸识别(PR)

在过去的15年中，针对FR的理论和实践方面发表了大量论文。已发表的工作报告了一般研究和解决特定问题（照明，遮挡和姿势）的技术。Zhanget等。开发了一种有趣的FR方案，该方案利用非张量积双变量小波，然后采用二维线性判别技术来增强面部特征的辨别能力。最后，采用SVM进行分类。与传统的张量积小波相比，新的非张量积小波可靠地检测到奇异的面部特征。Weihua等引入了一种结构化的字典学习方法来从人脸数据中学习遮蔽字典。这项工作开发了基于稀疏表示的结构化分类（SSRC）技术，成功地处理了人脸遮挡和光照变化。提出了一种自相关的姿势对齐方法，该方法避免了探针脸与画廊中每个脸之间的配准。基于签名形状差异图（SSDM），使用三种特征对局部相似度和面部形状进行编码。作者声称FRGC数据库的准确性超过95％
FR常被应用于犯罪调查与法证评估、图像数据库调查、表情识别等。
当前正确的特征位置对于良好的识别性能至关重要。当人脸旋转到一定角度时，人脸变化的特征和许多FR算法都难以处理。人脸姿势，年龄变化和照明不均匀是困扰当前FR算法的三个主要问题。如果人脸闭塞，则识别率会迅速下降。同样，胡须和眼镜等结构部件也会明显影响识别率。

参考

Mahmood Z , Muhammad N , Bibi N , et al. A review on state-of-the-art face recognition approaches[J]. Fractals, 2017, 25(1).