论文翻译:2020_効率的なマルチタスク畳み込みニューラル ネットワークに基づく残留音響エコー抑制

ブロガー:Ling Nizhan (転載の際は出典を明記してください)

論文アドレス:効率的なマルチタスク畳み込みニューラル ネットワークに基づく残留音響エコー抑制


まとめ

  エコーは音声通信システムのユーザー エクスペリエンスを低下させる可能性があるため、完全に抑制する必要があります。畳み込みニューラルネットワークを使用したリアルタイム残留音響エコー抑制方法が提案されています。マルチタスク学習のコンテキストでは、RAES のパフォーマンスを向上させるための補助タスクとしてデュアル音声検出器が使用されます。トレーニング基準は、残留エコーの抑制と近端信号の歪みのバランスを取るための、抑制損失と呼ばれる新しい損失関数に基づいています。実験結果は、この方法がさまざまな状況で残留エコーを効果的に抑制できることを示しています。

要旨:残留音響エコー抑制、畳み込みニューラルネットワーク、マルチタスク学習、抑制損失

1 はじめに

  音声通信システムでは、マイクとスピーカーが密閉空間にある場合、マイクとスピーカーの結合によって発生するエコー信号を捕捉する必要があり、音響エコーキャンセレーション(AEC)が必要となります。従来の AEC アルゴリズムは、適応線形フィルター (AF) [1] と非線形エコー プロセッサー (NLP) [2] の 2 つの部分で構成されます。AEC には、スピーカーによって引き起こされる非線形性など、多くの課題があり、AF 出力と遠端信号の間の非線形関係を見つけるのは困難です。言い換えれば、AEC システムでは、残留エコーを完全に除去するために、NLP は近端信号に重大な損傷を引き起こす可能性が高くなります。

  近年、音響エコーのキャンセルと抑制に機械学習が導入されています。遠端信号とその非線形変換信号 [3] に基づいて、2 つの隠れ層を持つ人工ニューラル ネットワークが残留エコーの推定に使用されます。遠端信号と AF 出力信号を使用してディープ ニューラル ネットワーク (DNN) をトレーニングすると、より正確なマスクを予測できます [4、5]。ただし、位相情報が欠如しているため、振幅スペクトルをニューラル ネットワークに入力して出力振幅スペクトル マスクを推定するときに、完全な音響エコー [6] を除去しながら近端信号を保存することは困難です。ただし、そのような位相スペクトルでは、さらに多くの入力特徴が追加されるため、モデルが複雑すぎてほとんどの個人端末に適用できなくなります [7、8]。最近の研究では、AF 出力と近端信号の間の位相関係を使用してマスクを変更するために、位相感応重みが使用されました [9]。

  この論文では、効率的なマルチタスク畳み込みニューラル ネットワーク (CNN) を採用し、遠端基準信号と AF 出力信号を入力として受け取り、比較的感度の高いマスク ( PSM)をターゲットとして使用します。新しい抑制損失を採用して、残留エコー抑制と近端信号保存の間のバランスをとります。正確なバイリンガル検出器 (DTD) が不可欠である従来の AEC においても、この論文ではマスク予測精度を向上させるための補助タスクとしてバイリンガル状態の推定を採用しています。実験結果は、この方法がシミュレーション環境と実際の音響環境の両方で残留エコーを効果的に抑制し、近端信号の歪みを大幅に低減できることを示しています。

  この文書の残りの部分は次のように構成されています。セクション II では、従来の AEC システムを紹介します。本稿の第 III 章では提案手法を示し,第 IV 章では比較実験結果を示す。最後に第5部は全文の要約です。

2 AEC フレームワーク

  AEC フレームワークでは、図 1 に示すように、マイクが受信した信号 $d(n)$ は近端信号 $s(n)$ とエコー $y(n)$ で構成されます。

$$式 1: d(n)=s(n)+y(n)$$

AEC の目的は、近端信号の $\hat{s}(n)$ を維持しながらエコー信号を除去することです。

  エコー $y(n)$ は、線形エコー (直接の遠端信号とその反射信号を含む) と話者によって引き起こされる非線形エコーの 2 つの部分で構成されます。AF モジュールは線形エコー $\hat{y}(n)$ を適応的に推定し、それをマイク信号 $d(n)$ から減算して出力信号 $e(n)$ を取得します。従来の NLP は、残留エコーをさらに抑制するために $e(n)$ と $d(n)$ から抑制ゲインを計算します。ただし、ダブル トークでこの方法を使用すると、近端信号が深刻な破損を受けやすくなります。

3 提案手法

3.1 特徴抽出

  AF モジュールは、マイク信号内の線形エコーの一部を除去するために使用されます。リニア AF アルゴリズムを実装するにはさまざまな方法があります。理論的には、提案された RAES は任意の標準 AF アルゴリズムで使用でき、この論文ではサブバンド正規化最小二乗平均 (NLMS) アルゴリズムが使用されます。

  入力特徴には、前述したように、AF 出力誤差信号 $e(n)$ とリモート基準信号 $u(n)$ の対数スペクトルが含まれます。サイズ K の平方根ハニング ウィンドウを使用して、短時間フーリエ変換 (STFT) を使用して $e(n)$ と $u(n)$ を周波数領域に変換します。そのため、実際の周波数ビンの数は K です。 / 2. DC ビンを廃棄します。より多くの時間参照情報を提供するために、入力特徴として M フレームを連結します。連結のもう 1 つの利点は、ネットワークがエコーと遠端の信号の間の遅延を学習できることです。

3.2 ネットワークの枠組み

  この論文のネットワークのバックボーンはMobileNetV2からインスピレーションを受けており、計算コストを削減するために完全な畳み込み演算のほとんどが深さ方向および点方向の畳み込みに置き換えられています [10]。全体的なネットワーク アーキテクチャは図 2 に示されており、Conv() と Residual BottleNeck()() の最初の 3 つのパラメーターはそれぞれ出力チャネル、カーネル サイズ、ストライド サイズです。指定しない場合、デフォルトのストライド サイズは 1 です。FC は、入力次元と出力次元を持つ完全に接続された層を指します。Residual BottleNeck() の詳細なアーキテクチャを図 2 (a) に示します。ここでは、残留接続は高次元の機能と低次元の機能を組み合わせています。

  ダブルトークにおけるマスク予測は困難な作業であることは言及する価値があります。4 つの Residual BottleNeck ブロックを通じて特徴を抽出した後、右ブランチの DTD 予測タスクを使用して、左マスク予測ブランチをオフロードします。したがって、マルチタスク学習により、ネットワークは双方向トークマスクの予測にさらに注意を払うことができ、DTD タスクが単一トーク期間 (シングルトーク期間) を検出した場合、マスク (マスク) を簡単に 1 に設定できます。または0。

 

a、反転残差ボトルネック($C_{out}$、カーネル、ストライド)

(b) 一般的な枠組み

図 2 K = 128 の場合に提案されるネットワーク アーキテクチャ

3.2 訓練目標と損失

  理想振幅マスク (IAM) は、位相情報を考慮せずに、音声強調や残留エコー抑制のトレーニング ターゲットとしてよく使用されます。本稿では次のように表される位相感応マスク (PSM) [11] を使用する。

$$2:g^{\mathrm{PSM}}(l,k)=\frac{|S(l,k)|}{|E(l,k)|} \cos(\theta)$$

$\theta=\theta^{S(l, k)}-\theta^{E(l, k)} \cdot S(l, k)$ と $E(l,k)$ は $l Near を表します。 $frame および $k$ 番目の周波数ビンの end および AF 出力信号、PSM はネットワーク内で 0 と 1 の間で切り捨てられます。次に、周波数点 $(l,k)$ における提案された RAES $\hat{S}(l,k)$ の周波数領域出力は次の式で計算されます。

$$式 3: \hat{S}(l, k)=g^{\mathrm{PSM}}(l, k) E(l, k)$$

  最小二乗誤差 (MSE) は、トレーニング中の損失関数として使用されます。エコーを完全にキャンセルするには、近端信号のある程度の歪みは避けられません。ネットワークの推定が完璧ではない限り、RAES は近端信号を歪ませるか、残留エコーを保持するか、あるいはさらに悪いことにその両方を引き起こします。一方で、AEC の主な目的は本質的に、近端信号を可能な限り維持しながら、マイク信号からすべてのエコーを除去することです。したがって、エコーを抑制するための要件は、近端信号品質を維持することよりも高くなります。一方、MSE 損失は、同量の正と負のバイアスがまったく同じ損失として扱われるため、対称的な尺度です。したがって、MSE を直接使用しても、エコーの抑制と近端信号の保存との間のトレードオフを制御することはできません。この論文の解決策は、パラメータ Leaky ReLU 関数を適用して、$(l,k)$ 周波数ビン上のターゲットと推定マスク $\Delta(l, k)$ 間の加重平均二乗距離を計算することです。抑制率は $\alpha $ です

$$公式4:\Delta(l)=\left\{\begin{array}{ll}
\frac{1}{K} \sum_{k=0}^{K-1}\left[g_{t }(l, k)-g_{e}(l, k)\right]^{2}, & \text { if } g_{t}(l, k)<g_{e}(l, k) \ \
\frac{1}{K} \sum_{k=0}^{K-1}\left\{\alpha_{k}\left[g_{t}(l, k)-g_{e}(l , k)\right]\right\}^{2}, & \text { else }
\end{array}\right.$$

ここで $g_t(l,k)$ と $g_e(l,k)$ は、それぞれ周波数ビン $(l,k)$ におけるターゲットと推定の位相敏感マスクであり、これを抑圧損失と呼びます。$k$周波数点の抑圧率$\alpha_k$をパラメータとして0から1の間で設定し、kが小さいほど抑圧が強くなります。異なる $k$ 値を設定することで、各周波数ビンで抑制の程度を調整できます。簡単にするために、すべての周波数ビンに同じ値を設定します。

  フレーム $l$ の DTD ステータスは、次のルールに従って取得されます。

$$field5:\operatorname{DTD}(l)=\left\{\begin{array}{ll}
0, & \text { if } \max (|y(l, k)|)<0.001 \& \ max (|s(l, k)|)>0.001 \\
1, & \text { if } \max (|s(l, k)|)<0.001 \& \max (|y(l, k) | )>0.001 \\
2, &\text{otherwise}
\end{array}\right.$$

  DTD 状態 0、1、および 2 は、それぞれ信号近端コール、単一遠端コール、およびダブルエンド コールに対応します。データセット内の一方通話と二者通話の間の不均衡のため、集束パラメータ $Y^*=2$ の焦点損失 [12] が DTD トレーニング タスクの損失関数として使用されます。 [13] の 2 つの損失と 2 つの重みを組み合わせて、ネットワークを通じて 2 つの重みを更新します。

4 実験結果

4.1 データセット

おすすめ

転載: blog.csdn.net/qq_34218078/article/details/127238852