Savitzky-Golay 滤波器在心电数据平滑中的应用

　　大二的时候做过一个三导联心电的项目，采用的处理器是STM32。当时在中文网站很少存在关于这方面的资料，特别是心电数据平滑这一块。之前在国内某一论坛上分享了一下作品以及作品的全部资源，但是大部分的人对心电数据平滑存在着很大的疑惑。于是今天想总结一下，写一个关于SG滤波器的推导。
　　首先，我们对 $N$ 个数据 $x[n](n\in [-M,M],N=2M+1)$ ，用（ $K+1$ ）项多项式进行近似

p n \to x [n]

$\begin{align} p_{n}\rightarrow x[n] \end{align}$
其中

pn $p_n$ 表示平滑之后的数据，表示为

p n = \sum k = 0 K a k n k

$\begin{align} p_n=\sum\limits_{k=0}^K a_kn^k \end{align}$
那么我们就得到了这样的一个表述，我们用

p $\boldsymbol{p}$ 来代替

x $\boldsymbol{x}$ ，

p $\boldsymbol{p}$ 表示对

x $\boldsymbol{x}$ 平滑之后的数据

p = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \sum k = 0 K a k (- M) k \sum k = 0 K a k (1 - M) k \sum k = 0 K a k (M) k ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⟶ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ x - M x 1 - M ⋮ x M ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = x

$\begin{align} \boldsymbol{p}=\left[ {\begin{array}{*{20}{c}} {\sum\limits_{k=0}^K a_k(-M)^k}\\ {\sum\limits_{k=0}^K a_k(1-M)^k}\\ {}\\ {\sum\limits_{k=0}^K a_k(M)^k} \end{array}} \right]\longrightarrow \left[ {\begin{array}{*{20}{c}} {x_{-M}}\\ {x_{1-M}}\\ \vdots \\ {{x_{M}}} \end{array}} \right]=\boldsymbol{x} \end{align}$
这个问题的关键就是求解出系数

ak(k=0,⋯,K) $a_k(k=0,\cdots, K)$ 。既然是近似，那么就存在误差，我们用均方误差来衡量估计的性能，即

MSE = \sum n = - M M (p [n] - x [n]) 2 = \sum n = - M M [\sum k = 0 K a k n k - x [n]] 2

$\begin{align} \text{MSE}=\sum\limits_{n=-M}^M(p[n]-x[n])^2=\sum\limits_{n=-M}^M\left[{\sum\limits_{k=0}^K a_kn^k-x[n]}\right]^2 \end{align}$
由于目标函数是关于系数

ai $a_i$ 的凸函数，因此系数的值在驻点取得

\partial MSE \partial a i = \sum n = - M M [n i (\sum k = 0 K a k n k - x [n])] = 0 \Rightarrow \sum n = - M M n i \sum k = 0 K a k n k = \sum n = - M M n i x [n]

$\begin{align} &\frac{\partial \text{MSE}}{\partial a_i}=\sum\limits_{n=-M}^M\left[{n^i\left({\sum\limits_{k=0}^K a_kn^k-x[n]}\right)}\right]=0\\ &\Rightarrow \sum\limits_{n=-M}^M n^i\sum\limits_{k=0}^K a_kn^k=\sum\limits_{n=-M}^Mn^ix[n] \end{align}$
设

A = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ (- M) 0 (1 - M) 0 ⋮ (M) 0 (- M) 1 (1 - M) 1 ⋮ (M) 1 \dots \dots ⋱ \dots (- M) K (1 - M) K ⋮ (M) K ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥, a = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ a 0 a 1 ⋮ a K ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$\begin{align} \boldsymbol{A}=\left[ {\begin{array}{*{20}{c}} {{{( - M)}^0}}&{{{(- M)}^1}}& \cdots &{{{( - M)}^K}}\\ {{{(1 - M)}^0}}&{{{(1- M)}^1}}& \cdots &{{{(1 - M)}^K}}\\ \vdots & \vdots & \ddots & \vdots \\ {{{(M)}^0}}&{{{(M)}^1}}& \cdots &{{{(M)}^K}} \end{array}} \right], \quad \boldsymbol{a}&=\left[ {\begin{array}{*{20}{c}} {{a_0}}\\ {{a_1}}\\ \vdots \\ {{a_K}} \end{array}} \right] \end{align}$
用矩阵来表示公式(6)如下

A T : i A a = A T : i x

$\begin{align} \boldsymbol{A}_{:i}^\text{T}\boldsymbol{A}\boldsymbol{a}=\boldsymbol{A}_{:i}^\text{T}\boldsymbol{x} \end{align}$
其中

A:,i $\boldsymbol{A}_{:,i}$ 表示矩阵

A $\boldsymbol{A}$ 中的第

i $i$ 列全部元素组成的列向量。那么由公式(8)我们知道

A a = x

$\begin{align} \boldsymbol{Aa}=\boldsymbol{x} \end{align}$
根据最小二乘法，方程解为

a = A ＋ x

$\begin{align} \boldsymbol{a}=\boldsymbol{A}^＋\boldsymbol{x} \end{align}$
其中

A＋ $\boldsymbol{A}^＋$ 表示

A $\boldsymbol{A}$ 的Moore-Penrose逆矩阵，这也就是为什么SG滤波器称为最小二乘平滑的原因，因为求解方程组用了最小二乘法。最终我们得到

a = (A T A) - 1 A T x

$\begin{align} \boldsymbol{a}=(\boldsymbol{A}^\text{T}\boldsymbol{A})^{-1}\boldsymbol{A}^\text{T}\boldsymbol{x} \end{align}$
现在已经得到了系数

a $\boldsymbol{a}$ ，接下来就是求

p $\boldsymbol{p}$ 了

p = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \sum k = 0 K a k (- M) k \sum k = 0 K a k (1 - M) k \sum k = 0 K a k (M) k ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ (- M) 0 (1 - M) 0 ⋮ (M) 0 (- M) 1 (1 - M) 1 ⋮ (M) 1 \dots \dots ⋱ \dots (- M) K (1 - M) K ⋮ (M) K ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ a 0 a 1 ⋮ a K ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = A a

$\begin{align} \boldsymbol{p}=\left[ {\begin{array}{*{20}{c}} {\sum\limits_{k=0}^K a_k(-M)^k}\\ {\sum\limits_{k=0}^K a_k(1-M)^k}\\ {}\\ {\sum\limits_{k=0}^K a_k(M)^k} \end{array}} \right]=\left[ {\begin{array}{*{20}{c}} {{{( - M)}^0}}&{{{(- M)}^1}}& \cdots &{{{( - M)}^K}}\\ {{{(1 - M)}^0}}&{{{(1- M)}^1}}& \cdots &{{{(1 - M)}^K}}\\ \vdots & \vdots & \ddots & \vdots \\ {{{(M)}^0}}&{{{(M)}^1}}& \cdots &{{{(M)}^K}} \end{array}} \right]\left[ {\begin{array}{*{20}{c}} {{a_0}}\\ {{a_1}}\\ \vdots \\ {{a_K}} \end{array}} \right]=\boldsymbol{A}\boldsymbol{a} \end{align}$
因此，最后的表达式是

p = A a = A (A T A) - 1 A T x

$\begin{align} \boldsymbol{p}=\boldsymbol{A}\boldsymbol{a}=\boldsymbol{A}(\boldsymbol{A}^\text{T}\boldsymbol{A})^{-1}\boldsymbol{A}^\text{T}\boldsymbol{x} \end{align}$

Ｍａｔｌａｂ处理心电信号
======================构造SG滤波器======================

N=11;
d=3;
M=(N-1)/2;

for m=-M:M
    for i=0:d
        S(m+M+1,i+1)=m^i;
    end
end

F=S'*S;
B=S*F^(-1)*S';

代码中的 $\boldsymbol{S}$ 矩阵就是本文中的 $\boldsymbol{A}$ ，代码中的 $\boldsymbol{F}$ 就是 $(\boldsymbol{A}^\text{T}\boldsymbol{A})^{-1}$ ，代码中的矩阵 $\boldsymbol{B}$ 就是 $\boldsymbol{A}(\boldsymbol{A}^\text{T}\boldsymbol{A})^{-1}\boldsymbol{A}^\text{T}$ .

======================处理原始数据部分======================

for i=1:M+1
    y(i,1)=B(:,i)'*A(1:N);
end

for n=M+2:L-M-1
    y(n,1)=B(:,M+1)'*A(n-M:n+M);
end

for i=0:M
    y(L-M+i,1)=B(:,M+1+i)'*A(L-N+1:L);
end

Question 1: 为什么对长序列A的处理分三部分？

代码中的A表示待处理的长序列，对于A的第一个元素，该元素的左边是没有元素的，对于第M+1个元素，它的左边刚好有M个元素，由于我们处理的时候，是以当前处理的数据为中心数据，然后左右两边各有M各元素。因此长序列A中，前M+1个元素，和后M+1个元素的处理方法和中间的处理方法是不一样的，具体体现在代码中如下
======================处理前M+1个元素=====================

for i=1:M+1
    y(i,1)=B(:,i)'*A(1:N);
end

=======================处理中间的元素======================

for n=M+2:L-M-1
    y(n,1)=B(:,M+1)'*A(n-M:n+M);
end

=====================处理末尾的M+1个元素====================

for i=0:M
    y(L-M+i,1)=B(:,M+1+i)'*A(L-N+1:L);
end

处理前面和末尾的两部分数据我们可以理解，但是中间的数据，为什么仅仅选取B矩阵的第M+1列呢？其实不难发现，矩阵 $\boldsymbol{B}$ 是对称矩阵，并且该矩阵的每一列元素的和为1，而矩阵 $\boldsymbol{B}$ 第M+1列,中间最大，依次往两边递减
比如N=11，d=4时

-0.0839 0.0210 0.1026 0.1608 0.1958 0.2075 0.1958 0.1608 0.1026 0.0210 -0.0839

我们再来看看数据平滑的策略，我们处理第

i $i$ 个元素，需要前

M $M$ 个元素，和后

M $M$ 个元素。很显然，当前元素的比重应该最大，往两边逐个递减。而满足此条件的，只有

B $\boldsymbol{B}$ 矩阵中的中间列。

Question 2：为什么三部分的处理的系数都是对 $\boldsymbol{B}$ 矩阵的某一列的转置如B(:,i)’，B(:,M+1)’，B(:,M+1+i)’，而理论部分推导为 $\boldsymbol{p}=\boldsymbol{Bx}$ ? 理论部分是行向量，而不是列向量的转置

这里主要是 $\boldsymbol{B}$ 是对称矩阵，行向量和列向量转置是相等的。
应用SG滤波器的前后效果如下：

附录，SG滤波器处理心电信号

clc;
clear all;
A=importdata('mit.txt') ;
figure
subplot(211)
plot(A);
title('数据库数据')

% 构造滤波器
N=11;
d=3;
M=(N-1)/2;

for m=-M:M
    for i=0:d
        S(m+M+1,i+1)=m^i;
    end
end
F=S'*S;
B=S*F^(-1)*S';


% 心电信号通过滤波器
[L,L1]=size(A);
for i=1:M+1
    y(i,1)=B(:,i)'*A(1:N);
end

for n=M+2:L-M-1
    y(n,1)=B(:,M+1)'*A(n-M:n+M);
end

for i=0:M
    y(L-M+i,1)=B(:,M+1+i)'*A(L-N+1:L);
end
subplot(212)
plot(y);
title('S-G平滑滤波之后数据')

在这个网址中可以下载全部的心电资料
http://www.cirmall.com/circuit/2179/%E5%88%86%E4%BA%AB%E5%9F%BA%E4%BA%8ESTM32%E7%9A%84%E5%BF%83%E7%94%B5%E9%87%87%E9%9B%86%E7%B3%BB%E7%BB%9F%EF%BC%88%E7%A1%AC%E4%BB%B6%2B%E8%BD%AF%E4%BB%B6%2B%E4%B8%8A%E4%BD%8D%E6%9C%BA%2B%E8%AE%BE%E8%AE%A1%E6%8A%A5%E5%91%8A%E7%AD%89%EF%BC%89#/details

Savitzky-Golay 滤波器在心电数据平滑中的应用

猜你喜欢