Interspeech 2023 | Volcano Engine ストリーミング オーディオ テクノロジー音声強化と AI オーディオ コーディング

背景の紹介

マルチデバイス、マルチパーソン、マルチノイズシナリオなど、さまざまな複雑なオーディオおよびビデオ通信シナリオに対処するために、ストリーミングメディア通信テクノロジーは徐々に人々の生活に不可欠なテクノロジーになりました。より良い主観的体験を実現し、ユーザーが明瞭かつ真に聞こえるようにするために、ストリーミング オーディオ テクノロジー ソリューションは、従来の機械学習と AI ベースの音声強化ソリューションを組み合わせ、ディープ ニューラル ネットワーク テクノロジー ソリューションを使用して音声ノイズの低減とエコー キャンセルを実現します。リアルタイム通信における音声品質を保護するために、干渉音声の除去やオーディオのエンコードとデコードなどを行います。

Interspeech は、音声信号処理研究分野の主力国際会議として、常に音響分野における最先端の研究の方向性を代表してきました。Interspeech 2023 には、音声信号音声強調アルゴリズムに関する多数の記事が含まれています。 Volcano Engine Streaming Audio チームは合計4 件の研究論文を発表しました。音声強調、AI ベースのエンコードとデコードエコー キャンセル、教師なし適応型音声強調をカバーする 3 つの研究論文がカンファレンスに受理されました

教師なし適応音声強化の分野では、ByteDance と NPU の共同チームが今年の CHiME (マルチソース環境におけるコンピュータ聴覚) チャレンジで対話音声強化のための教師なしドメイン適応というサブタスクを成功裡に完了したことは言及に値します。強化 (UDASE) が優勝しました (https://www.chimechallenge.org/current/task2/results)。CHiME Challengeは、フランスのコンピュータ科学オートメーション研究所、英国のシェフィールド大学、米国の三菱電子研究所などの著名な研究機関によって2011年に開始された重要な国際コンテストです。音声研究分野における遠隔の問題に挑戦するこのイベントは、今年で7回目となります。これまでの CHiME コンテストの参加チームには、英国のケンブリッジ大学、米国のカーネギー メロン大学、ジョンズ ホプキンス大学、日本の NTT、日立研究院、その他の国際的に有名な大学や研究機関、清華大学、中国科学院大学、中国科学院音響研究所、NPU、iFlytekなどの国内トップクラスの大学や研究機関。

この記事では、これら 4 つの論文によって解決された中心的なシナリオの問題と技術的解決策を紹介し、音声強調、AI エンコーダー ベース、エコー キャンセル、教師なし適応音声強調の分野における Volcano Engine ストリーミング オーディオ チームの考え方と実践を共有します。

学習可能なコムフィルターに基づく軽量な音声高調波強調手法

論文アドレス: https://www.isca-speech.org/archive/interspeech_2023/le23_interspeech.html

背景

リアルタイムのオーディオおよびビデオ通信シナリオにおける音声強調は、遅延とコンピューティング リソースによって制限されるため、通常、フィルター バンクに基づく入力機能を使用します。Mel や ERB などのフィルター バンクを通じて、元のスペクトルは低次元のサブバンドに圧縮されます。サブバンド ドメインでは、深層学習ベースの音声強調モデルの出力は、ターゲット音声エネルギーの割合を表すサブバンドの音声ゲインです。ただし、圧縮されたサブバンド領域で強化されたオーディオは、スペクトルの詳細が失われるためぼやけており、多くの場合、高調波を強化するための後処理が必要です。RNNoise と PercepNet は高調波を強化するためにコム フィルターを使用しますが、基本周波数推定とコム フィルターのゲイン計算とモデルのデカップリングのため、エンドツーエンドで最適化することはできません。DeepFilterNet は時間周波数ドメイン フィルターを使用して高調波間ノイズを抑制します。ただし、音声の基本周波数情報を明示的に利用するわけではありません。上記の問題に対処するために、研究チームは、基本周波数推定とコムフィルタリングを組み合わせ、エンドツーエンドでコムフィルタのゲインを最適化できる学習可能なコムフィルタに基づく音声高調波強調手法を提案しました。実験により、この方法は既存の方法と同様の計算量でより優れた高調波強調を実現できることが示されています。

モデルフレームワーク構造

基本周波数推定器 (F0 推定器)

基本周波数推定の困難さを軽減し、リンク全体がエンドツーエンドで動作できるようにするために、推定対象の基本周波数範囲を N 個の離散基本周波数に離散化し、分類器を使用して推定します。非有声フレームを表すために 1 次元が追加され、最終的なモデル出力は N+1 次元の確率になります。CREPE と一致して、チームはトレーニング ターゲットとしてガウス平滑特徴を使用し、損失関数としてバイナリ クロス エントロピーを使用しました。

ccf651f2dea93e461c6c63dab70308de.png 7b5994b3b7a443e2f75f7aa8b0735b67.png
学習可能なコムフィルター

上記の個別の基本周波数ごとに、チームはコム フィルタリングに PercepNet と同様の FIR フィルタを使用し、変調されたパルス列として表現できます。

cb8fe5838bb459c0149b51d0ffc750aa.png

トレーニング中に、2 次元畳み込み層 (Conv2D) を使用して、すべての離散基本周波数のフィルタリング結果を同時に計算します。2 次元畳み込みの重みは、下図の行列として表現できます。行列には N+ があります。 1 次元であり、各次元は上記のフィルター初期化を使用します。

70f106c24a62b810069a0b00fff81752.png

各フレームの基本周波数に対応するフィルタリング結果は、ターゲットの基本周波数のワンホット ラベルと 2 次元畳み込みの出力を乗算することで得られます。

94b1b08fe7ca1090a2c81614690fa5e9.png c2f19a1991b7ddffee645cb7ce462ee9.png

倍音的に強化されたオーディオは重み付けされて元のオーディオに追加され、サブバンド ゲインを乗じて最終出力が得られます。

35d09757603b7883c470a04372599cf2.png

推論中、フレームごとに計算する必要がある基本周波数フィルタリング結果は 1 つだけであるため、この方法の計算コストは​​低くなります。

モデル構造
5c91676ca45f86cd2ac3cf5ca4c69d41.png

チームは、音声強調モデルのバックボーンとしてデュアルパス畳み込み再帰ネットワーク (DPCRN) を使用し、基本周波数推定器を追加しました。エンコーダとデコーダは深さ分離可能な畳み込みを使用して対称構造を形成し、デコーダにはサブバンド ゲイン G と重み付け係数 R をそれぞれ出力する 2 つの並列ブランチがあります。基本周波数推定器への入力は、DPRNN モジュールの出力と線形スペクトルです。このモデルの計算量は約300M MACであり、そのうちコムフィルタ計算量は約0.53M MACである。

モデルのトレーニング

実験では、VCTK-DEMAND および DNS4 チャレンジ データセットが学習に使用され、音声強調の損失関数と基本周波数推定がマルチタスク学習に使用されます。

a425f1c6649edf04bfa461663327cf5a.png 270a54f05c16b7704df70ae7bb79ac4e.png

実験結果

ストリーミング オーディオ チームは、提案された学習可能なコム フィルタリング モデルを、それぞれ DPCRN-CF、DPCRN-PN、DPCRN-DF と呼ばれる PercepNet のコム フィルタリングおよび DeepFilterNet のフィルタリング アルゴリズムを使用したモデルと比較しました。VCTK テスト セットでは、この記事で提案された方法は既存の方法よりも優れていることがわかります。

e05339f73242220f2787b9d0718c83c0.jpeg

同時に、チームは基本周波数推定と学習可能なフィルターに関するアブレーション実験を実施しました。実験結果は、信号処理ベースの基本周波数推定アルゴリズムとフィルター重みを使用するよりも、エンドツーエンド学習の方が良い結果を生み出すことを示しています。

73f2db6b918b71e1593cd6659310671f.jpeg

Intra-BRNN および GB-RVQ に基づくエンドツーエンドのニューラル ネットワーク オーディオ エンコーダー

論文アドレス: https://www.isca-speech.org/archive/pdfs/interspeech_2023/xu23_interspeech.pdf

背景

近年、低ビットレートの音声符号化タスクには多くのニューラルネットワークモデルが使用されていますが、一部のエンドツーエンドモデルではフレーム内関連情報を十分に活用できず、導入された量子化器の量子化誤差が大きく、エンコード後は低音質になります。エンドツーエンドのニューラル ネットワーク オーディオ エンコーダーの品質を向上させるために、ストリーミング オーディオ チームはエンドツーエンドのニューラル音声コーデック、つまり CBRC (Convolutional and Bidirectional Recurrent neural Codec) を提案しました。CBRC は、1D-CNN (1 次元畳み込み) と Intra-BRNN (フレーム内双方向リカレント ニューラル ネットワーク) のインターリーブ構造を使用して、フレーム内相関をより効果的に利用します。さらに、チームは CBRC のグループごとのビーム探索残差ベクトル量子化器 (GB-RVQ) を使用して、量子化ノイズを削減します。CBRC は、システム遅延を追加することなく、20 ミリ秒のフレーム長で 16 kHz オーディオをエンコードし、リアルタイム通信シナリオに適しています。実験結果は、ビットレート 3kbps の CBRC エンコーディングの音声品質が、12kbps の Opus の音声品質よりも優れていることを示しています。

モデルフレームワーク構造

5dfe1651aac3e343de02f93f55d9d4d8.png CBRC全体構成
エンコーダとデコーダのネットワーク構造

エンコーダーは 4 つのカスケード CBRNBlock を使用してオーディオ特徴を抽出します。各 CBRNBlock は特徴を抽出するための 3 つの ResidualUnits と、ダウンサンプリング レートを制御する 1 次元の畳み込みで構成されます。エンコーダー内の特徴がダウンサンプリングされるたびに、特徴チャンネルの数は 2 倍になります。ResidualUnit は、残差畳み込みモジュールと残差双方向リカレント ネットワークで構成されます。このネットワークでは、畳み込み層は因果畳み込みを使用しますが、Intra-BRNN の双方向 GRU 構造は 20 ミリ秒のフレーム内オーディオ機能のみを処理します。Decoder ネットワークは Encoder のミラー構造であり、アップサンプリングに 1 次元の転置畳み込みを使用します。1D-CNN とイントラ BRNN のインターリーブ構造により、エンコーダーとデコーダーは追加の遅延を発生させることなく 20 ミリ秒のオーディオフレーム内相関を最大限に活用できます。

2da413b03d5779b983383aa6eba54ed7.png CBRNBブロックの構造
グループおよびビーム探索残差ベクトル量子化器 GB-RVQ

CBRC は、残差ベクトル量子化器 (RVQ) を使用して、コーディング ネットワークの出力機能を量子化し、指定されたビット レートに圧縮します。RVQ は、多層ベクトル量子化器 (VQ) カスケードを使用して特徴を圧縮します。VQ の各層は、VQ の前の層の量子化残差を量子化するため、同じビットでの VQ の単一層のコードブック パラメータの量を大幅に削減できます。レート。研究チームは、CBRC における 2 つのより優れた量子化器構造、すなわちグループごとの RVQ とビーム探索残差ベクトル量子化器 (ビーム探索 RVQ) を提案しました。

グループごとの残差ベクトル量子化器 グループごとの RVQ ビームサーチ残差ベクトル量子化器 ビームサーチ RVQ
345baab8b0fc1d0946095374bbe92456.png a7c77a4e483fc733f9b67586736d079b.png

グループごとの RVQ はエンコーダー出力をグループ化し、グループ化された RVQ を使用してグループ化された特徴を個別に定量化します。その後、グループ化された量子化された出力が入力デコーダーに接続されます。グループごとの RVQ はグループ量子化を使用して、コードブック パラメーターと量子化器の計算の複雑さを軽減すると同時に、CBRC エンドツーエンド トレーニングの難しさを軽減し、それによって CBRC エンコードされたオーディオの品質を向上させます。

研究チームは、ニューラル オーディオ エンコーダーのエンドツーエンド トレーニングにビーム検索 RVQ を導入し、ビーム検索アルゴリズムを使用して RVQ の量子化パス誤差が最小となるコードブックの組み合わせを選択し、量子化器の量子化誤差を削減しました。元の RVQ アルゴリズムは、VQ 量子化の各層で誤差が最小のコードブックを出力として選択しますが、VQ 量子化の各層に最適なコードブックの組み合わせが必ずしも全体的に最適なコードブックの組み合わせであるとは限りません。チームはビームサーチ RVQ を使用して、最小量子化パス誤差基準に基づいて VQ の各層に k 個の最適な量子化パスを保持し、より大きな量子化探索空間でより適切なコードブックの組み合わせを選択できるようにし、量子化誤差を削減します。



ビームサーチ RVQ アルゴリズムの簡単なプロセス:

1. VQ の各層は、前の層 VQ の候補量子化パスを入力し、候補量子化パスを取得します。

2. 候補量子化パスから量子化パス誤差が最小の量子化パスを現在の VQ レイヤ出力として選択します。

3. VQ の最後の層で量子化パス エラーが最小のパスを量子化器の出力として選択します。
a9bb79ffe3c30b34463da9d4f44e2041.png

モデルのトレーニング

実験では、LibriTTS データセット内の 245 時間の 16kHz 音声がトレーニングに使用され、音声の振幅にランダム ゲインが乗算されてモデルに入力されました。トレーニングにおける損失関数は、スペクトル再構成マルチスケール損失、識別子敵対的損失と特徴損失、VQ 量子化損失、および知覚損失で構成されます。

468d93b5c201a300516ac474e540e6ef.png

実験結果

主観的スコアと客観的スコア

CBRC エンコードされた音声品質を評価するために、10 項目の多言語オーディオ比較セットが構築され、この比較セット上の他のオーディオ コーデックと比較されました。計算の複雑さの影響を軽減するために、チームは軽量の CBRC-lite を設計しました。その計算の複雑さは Lyra-V2 よりわずかに高くなります。主観聴取比較の結果から、CBRC の音声品質は 3kbps で Opus の 12kbps を上回り、3.2kbps で Lyra-V2 を上回っており、提案手法の有効性が示されている。CBRC エンコードされたオーディオ サンプルは、https://bytedance.feishu.cn/docx/OqtjdQNhZoAbNoxMuntcErcInmb で提供されます。

客観的なスコア 主観的なリスニングスコア
cb37a8eaefc39370c037f812f13e48c9.jpeg 33e770f16787db0fb6f8481560c4d4aa.jpeg
アブレーション実験

研究チームは、Intra-BRNN、Group-wise RVQ、Beam-search RVQ のアブレーション実験を設計しました。実験結果は、エンコーダとデコーダの両方で Intra-BRNN を使用すると、音声品質が大幅に向上することを示しています。さらに、チームは RVQ でのコードブックの使用頻度をカウントし、エントロピー復号を計算して、さまざまなネットワーク構造下でのコードブックの使用率を比較しました。完全な畳み込み構造と比較して、Intra-BRNN を使用する CBRC では、潜在的なエンコード ビット レートが 4.94kbps から 5.13kbps に増加します。同様に、CBRC でグループワイズ RVQ とビームサーチ RVQ を使用すると、エンコードされた音声の品質を大幅に向上させることができ、ニューラル ネットワーク自体の計算の複雑さと比較すると、GB-RVQ によってもたらされる複雑さの増加はほとんど無視できます。

8b4b278506978c6cdc6282b88ef6f5eb.jpeg321f3e9c9d60459e23446521edc8cb01.jpeg

サンプルサウンド

オリジナルオーディオ

CBRC 3kbps

CBRC-lite 3kbps

2段階プログレッシブニューラルネットワークによるエコーキャンセル方式

論文アドレス: https://www.isca-speech.org/archive/pdfs/interspeech_2023/chen23e_interspeech.pdf

背景

ハンズフリー通信システムでは、音響エコーは迷惑な背景妨害です。エコーは、遠端の信号がスピーカーから再生され、近端のマイクで録音されるときに発生します。音響エコー キャンセル (AEC) は、マイクが拾う不要なエコーを抑制するように設計されています。現実の世界には、リアルタイム通信、スマート教室、車両のハンズフリー システムなど、エコー キャンセルを強く必要とするアプリケーションが数多くあります。

最近、ディープ ラーニング (DL) 手法を採用したデータ駆動型 AEC モデルは、より堅牢で強力であることが証明されています。これらの方法では、AEC を教師あり学習問題として定式化し、入力信号と近位ターゲット信号の間のマッピング関数がディープ ニューラル ネットワーク (DNN) を通じて学習されます。ただし、実際のエコー パスは非常に複雑であるため、DNN のモデリング能力に対してより高い要件が課されます。ネットワークのモデリング負担を軽減するために、既存の DL ベースの AEC 方式のほとんどは、フロントエンド線形エコー キャンセル (LAEC) モジュールを採用して、エコーの線形成分の大部分を抑制します。ただし、LAEC モジュールには 2 つの欠点があります。1) 不適切な LAEC により近端音声に歪みが生じる可能性があること、2) LAEC 収束プロセスにより線形エコー抑制性能が不安定になることです。LAEC は自己最適化を行うため、LAEC の欠点により、後続のニューラル ネットワークに追加の学習負担がかかります。

LAEC の影響を回避し、より良好な近端音声品質を維持するために、この文書では、エンドツーエンド DL に基づく新しい 2 段階処理モデルを検討し、粗粒度 (粗粒度) および粒度の細かい (粗粒度) モデルを提案します。エコーキャンセルタスクには、ファインステージで構成される2ステージカスケードニューラルネットワーク(TSPNN)が使用されます。多くの実験結果は、提案された 2 段階のエコー キャンセル方法が他の主流の方法よりも優れたパフォーマンスを達成できることを示しています。

モデルフレームワーク構造

以下の図に示すように、TSPNN は主に、遅延補償モジュール (TDC)、粗粒度処理モジュール (粗段階)、および細粒度処理モジュール (微段階) の 3 つの部分で構成されます。TDC は、入力遠端基準信号 (ref) と近端マイク信号 (mic) を調整する役割を果たします。これは、後続のモデルの収束に有益です。粗段階はマイクからほとんどのエコーとノイズを除去する役割を果たし、後続の微段階段階でのモデル学習の負担を大幅に軽減します。同時に、粗いステージでは、マルチタスク学習用の音声アクティビティ検出 (VAD) タスクを組み合わせて、近端音声に対するモデルの認識を強化し、近端音声へのダメージを軽減します。微調整ステージは、残留エコーとノイズをさらに除去し、近端のターゲット信号をより適切に再構築するために隣接周波数点の情報を結合する役割を果たします。

c158c89e4b40be0c262299f3de3a2ec1.png

各ステージのモデルを個別に最適化することによって引き起こされる次善の解決策を回避するために、この記事ではカスケード最適化の形式を採用し、粗ステージと微ステージを同時に最適化し、粗ステージの制約を緩和してシステムへの損傷を回避します。終わり間近のスピーチです。さらに、モデルが近端音声を知覚できるようにするために、本発明はマルチタスク学習用のVADタスクを導入し、損失関数にVAD損失を追加する。最終的な損失関数は次のとおりです。

ここで、 はそれぞれターゲット近端信号の複素スペクトル、粗段階と微段階で推定された近端信号の複素スペクトルを表し、それぞれ粗段階と近端で推定された近端音声アクティブ状態を表します音声アクティビティ検出ラベル。制御スカラーであり、主にトレーニング段階でさまざまな段階のフォーカスを調整するために使用されます。本発明は、粗動ステージに対する制約を緩和し、粗動ステージの近位端への損傷を効果的に回避することに限定されている。

実験結果

実験データ

Volcano Engine ストリーミング オーディオ チームが提案した 2 段階エコー キャンセル システムも他の方式と比較されており、実験結果では、提案されたシステムが他の主流の方式よりも優れた結果を達成できることが示されています。

fbf5703d0ddd84f375721e49f3f567b3.jpeg
具体例
  1. 実験結果 Github リンク: https://github.com/enhancer12/TSPNN

  2. デュアルトークシーンエフェクト性能:

32138b74ce2f8189fa07e2727e21c2bb.jpeg

CHiME-7 Unsupervised Domain Adaptive Speech Enhancement (UDASE) チャレンジ チャンピオン ソリューション

論文アドレス: https://www.chimechallenge.org/current/task2/documents/Zhang_NB.pdf

背景:

近年、ニューラルネットワークとデータ駆動型深層学習技術の発展に伴い、音声強調技術の研究は徐々に深層学習に基づく手法に移行しており、ディープニューラルネットワークに基づく音声強調モデルが提案されることが増えています。ただし、これらのモデルのほとんどは教師あり学習に基づいており、トレーニングには大量のペア データが必要です。ただし、実際のシナリオでは、ノイズの多いシーンの音声と、ペアになったクリーンな音声タグを同時に干渉なくキャプチャすることは不可能です。通常、データ シミュレーションを使用して、クリーンな音声とさまざまなノイズを別々に収集し、特定の信号に従ってそれらを結合します。対ノイズ比が混合すると、ノイズの多い周波数が生成されます。これにより、トレーニング シナリオと実際のアプリケーション シナリオの間に不一致が生じ、実際のアプリケーションでのモデルのパフォーマンスが低下します。

上記のドメイン不一致の問題をより適切に解決するために、実際のシーンで大量のラベルなしデータを使用して、教師なしおよび自己教師ありの音声強調技術が提案されています。CHiME Challenge Track 2 は、ラベルなしデータを使用して、人工的に生成されたラベル付きデータでトレーニングされた音声強調モデルの、トレーニング データと実際のアプリケーション シナリオの不一致によるパフォーマンス低下の問題を克服することを目的としています。ドメインのデータとセット外のラベル付きデータは、ターゲット ドメインの拡張結果を向上させるために使用されます。

モデルのフレームワーク構造:

dfbfbbd71866997c085113711ce8e852.png

教師なしドメイン適応型音声強調システムのフローチャート

上の図に示すように、提案されたフレームワークは教師と生徒のネットワークです。まず、ドメイン内のデータに対して音声アクティビティ検出、UNA-GAN、シミュレートされた室内インパルス応答、動的ノイズなどのテクノロジーを使用して、ターゲット ドメインに最も近いラベル付きデータ セットを生成し、教師ノイズ低減ネットワーク Uformer+ を事前トレーニングします。ドメイン外のラベル付きデータセット。次に、ドメイン内のラベルなしデータに対してこのフレームワークを利用して学生ネットワークが更新されます。つまり、事前トレーニングされた教師ネットワークを使用して、ノイズの多い音声からきれいな音声とノイズを擬似ラベルとして推定し、シャッフルされます。擬似ラベルを使用した学生ネットワークの教師ありトレーニング。学生ネットワークによって生成されたクリーンな音声品質スコアは、事前トレーニング済みの MetricGAN 弁別器を使用して推定され、最高スコアを使用して損失が計算され、学生ネットワークがより高品質のクリーンな音声を生成するように導きます。各トレーニング ステップの後、より高品質の教師あり学習擬似ラベルなどを取得するために、生徒ネットワークのパラメーターが特定の重みで教師ネットワークに更新されます。

ユーフォーマー+ネットワーク

Uformer+ は、Uformer ネットワークに MetricGAN を追加することで改良されました。Uformer は、Unet 構造に基づく複素実数デュアルパス コンバータ ネットワークであり、振幅スペクトル ブランチと複素スペクトル ブランチの 2 つの並列ブランチを持ち、ネットワーク構造は次の図に示されています。振幅ブランチはメインのノイズ抑制機能に使用され、ほとんどのノイズを効果的に抑制できます。複雑なブランチは、スペクトルの詳細や位相偏差などの損失を補償する補助として機能します。MetricGAN の主なアイデアは、ニューラル ネットワークを使用して微分不可能な音声品質評価指標をシミュレートし、ネットワーク トレーニングで使用して、トレーニング中と実際のアプリケーション中に一貫性のない評価指標によって引き起こされるエラーを削減できるようにすることです。ここでチームは、MetricGAN ネットワーク推定のターゲットとして知覚音声品質評価 (PESQ) を使用します。

14d404af4c0cc82a6d322d1fa45c2653.png

従来のネットワーク構成図

RemixIT-G フレームワーク

RemixIT-G は教師と生徒のネットワークであり、最初にドメイン外のラベル付きデータで教師 Uformer+ モデルを事前トレーニングし、事前トレーニングされた教師モデルを使用してドメイン内のノイズの多い音声をデコードし、ノイズと音声を推定します。次に、推定されたノイズと音声の順序が同じバッチ内でスクランブルされ、ノイズと音声がスクランブルされた順序でノイズの多い音声にリミックスされ、これが学生ネットワークをトレーニングするための入力として使用されます。教師ネットワークによって擬似ラベルとして推定された騒音と音声。学生ネットワークは、リミックスされたノイズのある音声をデコードし、ノイズと音声を推定し、擬似ラベルを使用して損失を計算し、学生ネットワーク パラメータを更新します。学生ネットワークによって推定された音声は、PESQ を予測するために事前にトレーニングされた MetricGAN 弁別器に入力され、PESQ の最大値を使用して損失が計算されて、学生ネットワーク パラメーターが更新されます。

すべてのトレーニング データが 1 回の反復を完了した後、教師ネットワークのパラメーターは次の式に従って更新されます。 ここで、 は教師ネットワーク トレーニングの K ラウンドのパラメーター、 は生徒ネットワークの K ラウンドのパラメーターです。 。つまり、生徒ネットワークのパラメータが一定の重みを持って教師ネットワークに追加されます。

データ拡張手法 UNA-GAN
ec301fcfeb51575b63f2203979a3eadb.png UNA-GAN 構造図

教師なしノイズ適応データ拡張ネットワーク UNA-GAN は、敵対的生成ネットワークに基づくノイズの多いオーディオ生成モデルです。その目的は、独立したノイズ データが取得できない場合に、ドメイン内のノイズのあるオーディオのみを使用して、クリーンな音声をドメイン内ノイズのあるノイズのあるオーディオに直接変換することです。ジェネレーターはクリーンな音声を入力し、シミュレートされたノイズの多い音声を出力します。弁別器は、生成されたノイズのあるオーディオまたはドメイン内の実際のノイズのあるオーディオを入力し、入力されたオーディオが実際のシーンからのものであるか、シミュレーションによって生成されたものであるかを判断します。識別器は主に背景雑音の分布に基づいて音源を識別しますが、この過程で人間の音声は無効な情報として扱われます。上記の敵対的トレーニング プロセスを実行することにより、ジェネレーターは、ディスクリミネーターを混乱させるために入力クリーン オーディオにドメイン内ノイズを直接追加しようとし、ディスクリミネーターはノイズの多いオーディオのソースを区別しようとします。ジェネレーターが過度のノイズを追加して、入力オーディオ内の人間の音声を覆い隠すことを避けるために、対照学習が使用されます。生成されたノイズの多い音声と入力されたきれいな音声に対応する位置で 256 ブロックをサンプリングします。同じ位置にあるブロックのペアは正の例とみなされ、異なる位置にあるブロックのペアは負の例とみなされます。正の例と負の例を使用してクロスエントロピー損失を計算します。

実験結果

結果は、提案された Uformer+ がベースライン Sudo rm-rf よりも強力なパフォーマンスを持ち、データ拡張手法 UNA-GAN がドメイン内でノイズの多い音声を生成する機能も備えていることを示しています。ドメイン アダプテーション フレームワーク RemixIT ベースラインは、SI-SDR で大幅な改善を達成しましたが、DNS-MOS ではパフォーマンスが劣っています。チームが提案した改善 RemixIT-G は、両方の指標で同時に効果的な改善を達成し、競争ブラインドテストセットで最高の主観的リスニング MOS スコアを達成しました。最終的なリスニングテストの結果を次の図に示します。

185e11a0cb9eec3dd014dede77d1936c.png

概要と展望

上記では、話者固有のノイズ リダクション、AI エンコーダー、エコー キャンセル、教師なし適応型音声強調の方向での深層学習に基づいて Volcano Engine ストリーミング オーディオ チームによって作成されたいくつかのソリューションと効果を紹介しましたが、将来のシナリオでは依然として多方向の課題に直面しています。 、さまざまな端末上で軽量かつ複雑さの低いモデルを展開して実行する方法や、マルチデバイス エフェクトの堅牢性なども、ストリーミング オーディオ チームによるその後の研究の焦点となります。

参加しませんか

Volcano Engine ストリーミング メディア チームは、グローバル インターネット上で高品質、低遅延のリアルタイム オーディオおよびビデオ通信機能を提供することに尽力し、開発者が音声通話、ビデオ通話、インタラクティブなライブ ブロードキャストなどのリッチ シーン機能を迅速に構築できるように支援します。現在、インタラクティブ エンターテイメント、教育、会議、ゲーム、自動車、金融、IoT などの豊富なリアルタイム オーディオおよびビデオ インタラクション シナリオをカバーしており、数億人のユーザーにサービスを提供しています。

オーディオ開発エンジニアとオーディオシニアアルゴリズムエンジニアを大募集しており、学生の参加も大歓迎です!

7de62e15f6db2d2e9b1912f915c18365.jpeg

QRコードをスキャンするか、クリックして元のテキストを読んで、詳しい求人情報をご覧ください~

おすすめ

転載: blog.csdn.net/ByteDanceTech/article/details/132632807