模式分类中的特征融合方法

概念、基本术语

信息融合：将来源不同的信息整合到一起，去冗余；得到的融合信息将利于我们之后的分析处理。
信息融合分为三个层次：数据融合，特征融合，决策融合。如下图所示：
论文图集2
这篇文章重点介绍了信息的特征融合，原因是：计算机性能的大幅提升，机器学习尤其是深度学习的快速发展，特征融合的优势越来越明显。

特征融合的分类

特征融合算法主要可以分为三类：
1.基于贝叶斯决策理论的算法
2.基于稀疏表示理论的算法
3.基于深度学习理论算法

基于贝叶斯理论的特征融合算法

已知模式空间 $\Omega$ 包含 $c$ 种模式，记为: $\Omega=\{\omega_1,\cdots,\omega_c\}$ ,未知样本 $x$ 由 $N$ 维实值特征组成，记为 $x=[x_1,x-2,\cdots,x_N]^N$ .根据最小错误率的贝叶斯决策理论，若将样本分为第 $j$ 类，则该类就是在已知样本 $x$ 条件下后验概率最大的模式类，这个决策过程可以表示为：

if F (ω j) x \to ω j = max k = 1, \dots, c P (ω k | x)

$\begin{equation} \begin{aligned} &x\to \omega_j\\ \text{if}\quad F(\omega_j)&=\max\limits_{k=1,\cdots,c}P(\omega_k|x) \end{aligned} \end{equation}$
其中：

P(ωk|x) $P(\omega_k|x)$ 表示第

k $k$ 类的后验概率，

k∈{1,2,⋯,c} $k\in\{1,2,\cdots,c\}$

分类器的乘法规则和加法规则

假定将 $x$ 看做分类器的输出结果，就可以得到贝叶斯理论的的分类器融合算法。假定有 $M$ 个分类器，那么每个分类器都会输出一个结果 $y_i$ ,因此得到此时的特征为： $y=[y_1,\cdots,y_M]$ .那么对于一个未知样本y，决策过程可以表示为：

if F (ω j) y \to ω j = max k = 1, \dots, c P (ω k | y 1, \dots, y M)

$\begin{equation} \begin{aligned} &y\to \omega_j\\ \text{if}\quad F(\omega_j)&=\max\limits_{k=1,\cdots,c}P(\omega_k|y_1,\cdots,y_M) \end{aligned} \end{equation}$
其中：

P(ωk|y1,⋯,yM) $P(\omega_k|y_1,\cdots,y_M)$ 表示在已知

M $M$ 个分类器输出结果的条件下第

k $k$ 类的后验概率，

k∈{1,2,⋯,c} $k\in\{1,2,\cdots,c\}$ .在此基础之上引入分类器独立性假设并结合下式：

P (ω k | y i, \dots, y M) = p ( y 1 , \dots , y M | ω k ) p ( ω k ) p ( y 1 , \dots , y M )

$P(\omega_k|y_i,\cdots,y_M)=\frac{p(y_1,\cdots,y_M|\omega_k)p(\omega_k)}{p(y_1,\cdots,y_M)}$
就可以得到分类器融合的乘法规则：

if F (ω j) y \to ω j = max k = 1, \dots, c P - (M - 1) (ω k) \prod i = 1 M P (ω k | y i)

$\begin{equation} \begin{aligned} &y\to \omega_j\\ \text{if}\quad F(\omega_j)&=\max\limits_{k=1,\cdots,c}P^{-(M-1)}(\omega_k)\prod_{i=1}^MP(\omega_k|y_i) \end{aligned} \end{equation}$
上面这个会有一个问题，就是当

p(ωk|xi) $p(\omega_k|x_i)$ 为0时会出问题。再在乘法规则的基础上，再引入先验概率和后验概率近似相等：

P (ω k | x i) = P (w k) (1 + δ k i)

$P(\omega_k|x_i)=P(w_k)(1+\delta_{ki})$
其中：

δki $\delta_{ki}$ 是一个很小的值。
最终可以推导出，分类器融合的加法规则：

if F (ω j) y \to ω j = max k = 1, \dots, c [(1 - M) P (ω k) + \sum i = 1 M P (ω k | y i)]

$\begin{equation} \begin{aligned} &y\to \omega_j\\ \text{if}\quad F(\omega_j)&=\max\limits_{k=1,\cdots,c}[(1-M)P(\omega_k)+\sum_{i=1}^MP(\omega_k|y_i)] \end{aligned} \end{equation}$

基于线性特征依赖模型的特征融合算法

由于分类器独立性假设与先验概率和后验概率近似相等都有相应的成立条件，在一些场景中不一定通用。因此需要将其进行进一步泛化。这个公式有点多，就不贴上来的，主要的思路还是一样的。

基于稀疏表示理论的特征融合算法

稀疏表示的基本思想是使用数据稀疏这一先验知识，从一个超完备字典中找到尽可能少的原子对目标信号进行线性表示。稀疏表示问题可以表示为，对于向量 $b\in\mathbb{R}^m$ 和矩阵 $A\in\mathbb{R}^{m\times n}$ ,我们希望找到一个向量 $x\in\mathbb{R}^n$ ,使得 $Ax=b$ 并且向量的 $x$ 的 $l_0$ 范数(0范数表示向量中非零元素的个数，1范数表示元素绝对值之和)要尽可能小。用公式表示为：

m i n | | x | | 0 s.t A x = b

$\begin{equation} \begin{aligned} &min||x||^0 \\ &\text{s.t}\quad Ax=b \end{aligned} \end{equation}$
基于稀疏表示理论的特征融合算法是对样本提取多特征后建立特征联合稀疏矩阵，这个矩阵就是多特征融合的结果。就是将不同类型的特征的字典进行融合。

基于深度学习理论的特征融合算法

就是将多个神经网络得到的特征进行融合就得到了融合的特征。