論文朗読_音声圧縮_SoundStream

用紙情報

番号見出し: auto、first-level 2、max 4、_.1.1
name_en: SoundStream: エンドツーエンドのニューラル オーディオ コーデック
name_ch: SoundStream: エンドツーエンドのニューラル オーディオ コーデック Paper_addr
: http://arxiv 。 org/abs/2107.03312
doi: 10.1109/TASLP.2021.3129994
date_read: 2023-05-01
date_publish: 2021-07-07
tags: ['ディープラーニング','オーディオ']
if: 4.364 Q1 B1
ジャーナル: IEEE
著者: Ne ilゼギドゥール、Google
引用: 82

1 件のフィードバック

音声、音楽、一般的なオーディオを効率的に圧縮します。モデルは、主に畳み込み技術を使用するエンコーダー、量子化器、およびデコーダーで構成されます。

2 まとめ

効率的なテキストと音楽生成のためのニューラル ネットワークベースのオーディオ エンコーダ。モデル構造は、完全畳み込みエンコーダ/デコーダ ネットワークと残差ベクトル量子化器で構成されます敵対的手法と再構築損失手法を組み合わせて、量子化されたエンベディングを入力として取得することで高品質のオーディオを生成します。
単一モデルで 3kbps ~ 18kpbs の音声を生成します。このモデルは低遅延の実装に適しており、ストリーミング推論をサポートし、スマートフォンの CPU上でリアルタイムで実行できます。主観的な品質からわかるように、SoundStream 出力オーディオは以前のモデルよりも高くなっています。

3 はじめに

主な貢献:

  • 符号化・復号化・量子化器から構成されるオーディオエンコーダSoundStreamを提案し、再構築と対立損失学習モデルにより高品質なオーディオ生成を実現する。
  • レート/歪み/複雑さのバランスを取るために新しい残差量子化器が提案され、単一のモデルが異なるビット レートを処理できるように量子化器ドロップアウトが提案されています。
  • メルグラフ機能を使用したソリューションの場合、エンコーダはコーディング効率を大幅に向上させます。
  • 主観評価では前モデルよりも出力音質が向上しており、主観評価の12kbps Opusや9.6kbps EVSよりも3kbpsの効果が優れていることが証明されています。
  • モデルは低遅延で実行され、スマートフォンに展開すると単一の CPU スレッドでリアルタイムで実行されます。
  • SoundStream コーデックのバリアントは、追加の遅延を発生させずに統合オーディオ圧縮と拡張を可能にするものが提案されています。

4つの方法

モデルは 3 つの部分で構成されます。

  • エンコーダ: 畳み込みエンコーダは、サンプリング レート fs の入力オーディオ x を埋め込みシーケンスに変換します。
  • 残差ベクトル量子化 (RVQ): コードブックを通じてエンベディングを少数のバイト (ターゲット ビット) の表現に圧縮し、量子化されたエンベディングを生成します。
  • デコーダ: 量子化された埋め込みから非可逆再構成 x^ を生成します。
    また、そのトレーニング プロセスでは、敵対的損失と再構築損失を組み合わせた弁別器 Discrminatorを使用し、オプションの条件付き入力を使用してオーディオからバックグラウンド ノイズを除去するかどうかを示します(デノージング)。

モデルが展開されると、送信機のエンコーダーと量子化器がオーディオ信号を圧縮し、受信機がそれをデコードします。

4.1 エンコーダの構造

その出力次元は SxD、D は埋め込みの次元、S = T /M、ここで T は時間、M は図に示すようにさまざまなレイヤー (スパン) の出力です。 M = 2 · 4 · 5 · 8 = 320; 図に示すように、各 Encoder は複数の EncoderBlock で構成され、EncoderBlock は ResidualUnits で構成されます。

4.2 デコーダの構造

デコーダはエンコーダの逆プロセスに似ており、ダウンサンプリングをアップサンプリングに変更します。

4.3 残差ベクトル量子化

量子化器の目的は、エンコーダによって生成された埋め込みを指定されたバイト長に圧縮することです。N ベクトルのコードブックを学習して、enc(x) の各 D 次元フレームをエンコードします。エンコードされたオーディオ S×D は、形状 S×N のワンホット ベクトルのシーケンスにマッピングされます。

4.4 弁別器の構造

2 つの異なる識別子が定義されています。

  • 単一の波形を入力として受け取る波形ベースの弁別器。
  • STFT (高速フーリエ変換)ベースの弁別器。実数部と虚数部で表される入力波形の複素数値 STFT を入力として受け取ります。
    どちらの弁別器も完全に畳み込み型であるため、出力の論理番号は入力オーディオの長さに比例します。

4.5 トレーニングの目的

g ( x ) = dec ( Q ( enc ( x ) ) g(x) = dec(Q(enc(x))g ( x )=d ec ( Q ( e n c ( x ))
入力オーディオは x で、最終的な出力オーディオは x^=g(x) です。生成の忠実性と品質が保証されています。ディスクリミネーターは
、 speech は元の音声または生成された音声

ジェネレーターの敵対的損失は次のとおりです。

信号忠実度を向上させるために、弁別器によって定義された特徴空間で計算される特徴損失 Lfeatと、マルチスケール スペクトル再構成損失 Lrec という2 つの追加損失が使用されます

このうち、L はモデル内の層の数で、元のデータと各層の生成データの差を比較し、平均絶対誤差を計算するために使用されます。

ここで、S(x) はメル ケプストラムの計算に使用されます。

損失関数からわかるように、ここではディープラーニング対立学習法に加えて、音声を記述するメルケプストラムとフーリエ変換特徴抽出法を導入して、生成された音声と元の音声の差異を測定します

最後のエラーは、上記の 3 つのエラーを組み合わせたものです。

4.6 圧縮と拡張の組み合わせ

SoundStream は、全体的な遅延を増やすことなく、同じモデルで圧縮と拡張を同時に実行できるように設計されています。
モデルがバックグラウンド オーディオとノイズ除去されたオーディオの両方をサポートできるようにする 2 つのモード (ノイズ除去の有効化または無効化) を表す調整信号を提供します。具体的な方法は、Feature Linear Modulation (FiLM) レイヤーを導入することです。

おすすめ

転載: blog.csdn.net/xieyan0811/article/details/130791356