声源分离算法性能评估指标SIR、SDR、SAR

原理介绍

声源分离算法用于从混合的观测声信号中分离出一个或者多个期望源信号，如语音降噪、去混响、音乐信号分离等。评价一个声源分离算法性能的好坏，就是要衡量算法所提取的源信号和真实源信号之间的差异。目前最常用的评价指标是Emmanuel[1]等提出的源失真比（source-to-distortion ratio, SDR）、源干扰比（source-to-interference ratio, SIR）和源伪影比（source-to-artifact ratio, SAR）。下面我们来介绍一下指标计算的原理。

假设 $s_{j}(t)$ （ $\le j \le n$ ）为第 $j$ 个声源信号， $x_{i}(t)$ （ $1\le i \le m$ ）为第 $i$ 个麦克风采集的观测信号， $a_{ij}(\tau)$ 为声源与麦克风之间的声传播路径滤波器，则声源信号的混合过程可以表示为
$\sum_{j=1}^{n} \sum_{\tau = 0}^{+ \infty } a_{ij}(\tau)s_{j}(t-\tau)+n_{i}(t)$ 其中， $n_{i}(t)$ 是加性的传感器噪声。表示为矩阵形式为
$\mathbf{x}=\mathbf{A}\star \mathbf{s}+\mathbf{n}$ 其中， $\star$ 为卷积符号，粗体字母表示矩阵，如 $\mathbf{x}=\left [ \mathbf{x}(0), \mathbf{x}(1),...,\mathbf{x}(T-1) \right ]$ 。方便起见，将由 $s_{j}(t)$ 组成的向量简记为 $s_{j}$ 。

我们把从观测信号中估计的源信号表示为 $\hat {s}_{j}$ ，它可以分解为以下四个分量
$\hat {s}_{j}=s_{target}+e_{interf}+e_{noise}+e_{artif}$ 这四部分依次代表着 $\hat {s}_{j}$ 中有关真实源信号 $s_{j}$ 的成分、来自其他源信号 $(s_{j'})_{j' \ne j}$ 的干扰、来自传感器噪声 $(n_{i})_{1\le i \le m}$ 的干扰以及算法本身造成的伪影失真。以上的分解可以用正交投影算子来定义，用 $\prod \left \{ y_{1},y_{2},...,y_{k}\right \}$ 表示由向量集合 $y_{1},y_{2},...,y_{k}$ 张成的子空间，定义以下三个正交投影算子
$P_{sj}= \prod \left \{ s_{j}\right\} \\ P_{\mathbf{s}}= \prod \left \{ (s_{j'})_{1 \le j' \le n}\right\} \\ P_{\mathbf{s,n}}= \prod \left \{ (s_{j'})_{1 \le j' \le n}, (n_{i})_{1 \le i \le m}\right\}$ 以上四个分量可以表示为
$s_{target}:= P_{sj}\hat {s}_{j} \\ e_{interf}: = P_{\mathbf{s}}\hat {s}_{j}- P_{sj}\hat {s}_{j} \\ e_{noise}:= P_{\mathbf{s,n}}\hat {s}_{j} -P_{\mathbf{s}}\hat {s}_{j} \\ e_{artif}:=\hat {s}_{j}- P_{\mathbf{s,n}}\hat {s}_{j}$

根据估计的源信号的分解，定义指标如下
$SDR=10log_{10}\frac{\left \| s_{target} \right \|^{2} }{\left \| e_{interf}+e_{noise}+e_{artif} \right \|^{2} } \\ SIR=10log_{10}\frac{\left \| s_{target} \right \|^{2} }{\left \|e_{interf} \right \|^{2} } \\ SAR=10log_{10}\frac{\left \| s_{target} +e_{interf}+e_{noise}+\right \|^{2} }{\left \|e_{artif} \right \|^{2} }$ 其中， $\left \| a\right \|^{2}=<a,a>$ 表示信号 $a$ 的能量值， $< >$ 为向量的内积运算。

实际中，我们需要计算出四个分量值，才能计算出以上的指标。接下来我们介绍计算的方法， $s_{target}$ 的计算是比较直接的
$s_{target}= \frac{<\hat{s_{j}}, s_{j}>}{\left \| s_{j}\right \|^{2}}s_{j}$ $e_{interf}$ 的计算稍微有些复杂，如果源信号之间是相互正交的，则
$e_{interf}= {\textstyle \sum_{j \ne j'}^{}} \frac{<\hat{s_{j}}, s_{j'}>}{\left \| s_{j'}\right \|^{2}}s_{j'}$ 而如果源信号之间有相关性，需要定义一个系数向量 $\mathbf{c}$
$P_{\mathbf{s}} \widehat{s}_{j}=\sum_{j^{\prime}=1}^{n} \bar{c}_{j^{\prime}} s_{j^{\prime}}=\mathbf{c}^{H} \mathbf{s}$
其中， $H$ 表示共轭转置
$\mathbf{c}=\mathbf{R}_{\mathbf{s s}}^{-1}\left[\left\langle\widehat{s}_{j}, s_{1}\right\rangle, \ldots,\left\langle\widehat{s}_{j}, s_{n}\right\rangle\right]^{H}$
$\mathbf{R}_{\mathbf{s s}}$ 为源信号的格拉姆矩阵， $\left(\mathbf{R}_{\mathbf{s s}}\right)_{j j^{\prime}}=\left\langle s_{j}, s_{j^{\prime}}\right\rangle$ 。 $P_{\mathbf{s,n}}$ 的计算方法与之类似，然而大多数情况下，我们假设源信号和噪声是不相关的，因此
$P_{\mathbf{s}, \mathbf{n}} \widehat{s}_{j} \approx P_{\mathbf{s}} \widehat{s}_{j}+\sum_{i=1}^{m}\left\langle\widehat{s}_{j}, n_{i}\right\rangle n_{i} /\left\|n_{i}\right\|^{2}$

参考文献

[1] Vincent E, Gribonval R, Févotte C. Performance measurement in blind audio source separation[J]. IEEE transactions on audio, speech, and language processing, 2006, 14(4): 1462-1469.