[タイミング] WaveNet オーディオ生成モデル ペーパー ノート

論文のタイトル: WaveNet: 生のオーディオの生成モデル
論文のダウンロード: https://arxiv.org/abs/1609.03499
論文の著者: Google DeepMind
論文の年: 2016
論文の引用: 3333 (2022/4/2)

概要

このホワイト ペーパーでは生の音声波形を生成するディープ ニューラル ネットワークであるWaveNetについて説明します。このモデルは完全に確率論的で自己回帰的であり各音声サンプルの予測分布は以前のすべての音声サンプルに基づいて調整されますそれにもかかわらず、1 秒あたり数万サンプルのオーディオを含むデータで効率的にトレーニングできることを示しています。テキスト読み上げに適用すると、最先端のパフォーマンスが得られます、人間のリスナーは、英語と北京語の両方で最高のパラメトリックおよび連結システムよりもはるかに自然に聞こえると評価しています. 単一の WaveNet は、多くの異なるスピーカーの特性を同等の忠実度でキャプチャすることができ、スピーカーのアイデンティティを調整することによってそれらを切り替えることができます。音楽をモデル化するように訓練すると、斬新で、しばしば非常に現実的な音楽の断片を生成することがわかりますまた、識別モデルとして使用できることを示し、音素認識の有望な結果を返します。

1 はじめに

この研究では、画像 (van den Oord et al., 2016a;b) やテキスト (Józefowicz et al., 2016) モデリングなどの複雑な分布で動作するニューラル自己回帰生成モデルの最近の進歩に触発された生のオーディオ生成手法を探ります。ニューラル アーキテクチャを条件付き分布の積として使用して、ピクセルまたは単語の結合確率をモデル化し、最先端の生成を実現します。

特に、これらのアーキテクチャは、何千もの確率変数の分布をモデル化することができます (たとえば、PixelRNN の 64×64 ピクセル (van den Oord et al., 2016a))。このホワイト ペーパーで取り上げる問題は、同様のアプローチを使用して、1 秒あたり少なくとも 16,000 サンプルという非常に高い時間分解能で、広帯域の生のオーディオ波形を正常に生成できるかどうかです (図 1 を参照)。
ここに画像の説明を挿入
この論文では、PixelCNN (van den Oord et al., 2016a;b) アーキテクチャに基づくオーディオ生成モデルである WaveNet を紹介します。この作品の主な貢献は次のとおりです。

  • 人間の評価者によって評価されたテキスト読み上げ (TTS) の分野でこれまで報告されたことのない、主観的な自然さを備えた生の音声信号を WaveNets が生成できることを示します。
  • 生のオーディオ生成に必要な長期的な時間的依存性を処理するために、非常に大きな受容野を示す拡張因果畳み込みに基づく新しいアーキテクチャを開発します。
  • 話者のアイデンティティを条件とした場合、単一のモデルを使用して異なる音声を生成できることを示します。
  • 同じアーキテクチャは、小さな音声認識データセットでテストしたときに強力な結果を示し、音楽などの他のオーディオ モダリティを生成するために使用する場合に有望です。

WaveNet は、音声生成に依存する多くのアプリケーション (TTS、音楽、音声強調、音声変換、ソース分離など) に汎用的で柔軟なフレームワークを提供すると考えています。

2 ウェーブネット

この論文では、生の音声波形を直接操作する新しい生成モデルを紹介します。波形 x = {x1, . . , xT } は、
ここに画像の説明を挿入
次のように条件付き確率の積に分解されます。

PixelCNN と同様に、条件付き確率分布は畳み込み層によってモデル化されます。ネットワークにはプーリング層がなく、モデルの出力は入力と同じ時間次元を持ちます。モデルは、パラメータに関してデータの対数尤度を最大化するように最適化されたソフトマックス層を使用して、次の値 xt のカテゴリ分布を出力します。対数尤度は扱いやすいため、検証セットのハイパーパラメーターを調整し、モデルがオーバーフィッティングかアンダーフィッティングかを簡単に測定できます

2.1 拡大された因果的畳み込み

ここに画像の説明を挿入
WaveNet の主要コンポーネントは、因果的図 2 に示すように、因果的畳み込みにより、モデルがデータがモデル化される順序に違反しないことが保証されます。タイム ステップ t でのモデルの予測 p(xt+1 | x1, …, xt) は、任意の将来のタイム ステップ xt +1、xt+2、...、xT . 画像の場合、因果的畳み込みはマスクされた畳み込みと同等です。これは、マスク テンソルを構築し、このマスクに対して要素ごとの乗算を実行して前の畳み込みカーネルを適用することで実装できます。オーディオのような 1 次元データの場合、これは、標準畳み込みの出力を数タイム ステップ分シフトすることで、より簡単に実現できます

真のラベル x はすべてのタイム ステップで既知であるため、トレーニング時には、すべてのタイム ステップでの条件付き予測を並行して行うことができます。モデル生成を使用する場合、予測はシーケンシャルです。各サンプルが予測された後、次のサンプルを予測するためにネットワークにフィードバックされます

因果畳み込みを含むモデルには再帰接続がないため、特に非常に長いシーケンスに適用される場合、RNN よりもトレーニングが高速になることがよくあります因果的畳み込みの問題の 1 つは、受容野を増やすために多くのレイヤーまたは大きなフィルターが必要になることです。たとえば、図 2 では、受容野は 5 (= #layers + filter length - 1) のみです。この論文では、膨張畳み込みを使用して、計算コストを大幅に増加させることなく、受容野を数桁増加させます

膨張畳み込み (穴のある畳み込み) は、特定のステップ サイズで入力値をスキップすることにより、その長さよりも大きな領域にフィルターを適用します。これは、元のフィルターをゼロで拡張することによって得られるより大きなフィルターを使用した畳み込みと同等ですが、はるかに効率的です。膨張畳み込みは、ネットワークが通常の畳み込みよりも粗いスケールで動作することを効果的に可能にします。これはプーリングやストライド畳み込みに似ていますが、ここでは出力が入力と同じサイズになります。dilation=1 の膨張畳み込みは、標準の畳み込みを生成します図 3 は、それぞれ拡張 1、2、4、および 8 の拡張因果畳み込みを示しています。拡張畳み込みは、信号処理 (Holschneider et al., 1989; Dutilleux, 1989) や画像セグメンテーション (Chen et al., 2015; Yu & Koltun, 2016) など、さまざまなコンテキストで以前に使用されてきました。
ここに画像の説明を挿入
積み重ねられた膨張畳み込みにより、ネットワークは、ネットワーク全体の入力解像度と計算効率を維持しながら、わずか数層で非常に大きな受容野を持つことができます。この論文では、各層の膨張を限界まで 2 倍にしてから繰り返します: たとえば、1、2、4、...、512、1、2、4、...、512、1、 2, 4, . . , 512 .

この構成には 2 つの考慮事項があります。第一に、インフレ率の指数関数的成長により、受容野が深さとともに指数関数的に成長します (Yu & Koltun, 2016)。たとえば、各 1、2、4、...、512 ブロックにはサイズ 1024 の受容野があり、これは 1×1024 畳み込みのより効率的で識別力のある (非線形) 対応物と見なすことができます。第二に、これらのブロックを積み重ねると、モデルの容量と受容野のサイズがさらに増加し​​ます

2.2 ソフトマックスのディストリビューション

単一のオーディオ サンプルで条件付き分布 p(xt | x1, …, xt−1) をモデル化する 1 つの方法は、密度ネットワークの混合 (Bishop、1994) や条件付きガウス スケールの混合などの混合モデルを使用することです ( MCGSM) (Theis & Bethge, 2015). ただし、PixelCNN の作成者は、データが暗黙的に連続している場合でも (画像のピクセル強度や音声サンプル値の場合のように)、ソフトマックス分布の方がうまく機能する傾向があることを示していますこの理由の 1 つは、カテゴリ分布がより柔軟であり、任意の分布をより簡単にモデル化できることです

生のオーディオは通常、16 ビット整数値のシーケンス (タイムステップごとに 1 つ) として格納されるため、ソフトマックス レイヤーは、すべての可能な値をシミュレートするために、各タイムステップで 65,536 の確率を出力する必要があります。これをより扱いやすくするために、最初に µ-law 圧伸変換 (ITU-T、1988) をデータに適用し、次にデータを 256 の可能な値に量子化します。ここで、-1 < xt < 1 および µ = 255です
ここに画像の説明を挿入
この非線形量子化は、単純な線形量子化スキームよりも大幅に優れた再構成をもたらします特に音声については、量子化後に再構成された信号が元の信号と非常によく似ていることがわかりました

2.3 ゲーテッドアクティベーションユニット

ゲーテッド PixelCNN と同じゲーテッド アクティベーション関数を使用します。
ここに画像の説明を挿入
ここで、* は畳み込み演算子、○ は要素ごとの乗算演算子、σ( ) はシグモイド関数、k はレイヤー インデックス、f と g はフィルターとゲートを表します。 、W は学習可能な畳み込みフィルターです。最初の実験では、この非線形性が ReLU よりも大幅に優れた音声信号をモデル化することを観察しました (Nair & Hinton, 2010)

2.4 残留およびスキップ接続

ここに画像の説明を挿入
残差 (He et al., 2015) とパラメトリック スキップ接続をネットワークで使用して、収束を高速化し、より深いモデルのトレーニングを可能にします図 4 は、モデルの残差ブロックを示しています。これは、ネットワーク内で何度もスタックされています。

2.5 条件付きウェーブネット

追加の入力 h が与えられると、WaveNets は、その入力が与えられたオーディオの条件付き分布 p(x|h) をモデル化できます。式 (1) は、
ここに画像の説明を挿入
他の入力変数でモデルを調整することにより、WaveNet を誘導して、目的の特性を持つオーディオを生成できるようになります。たとえば、マルチスピーカー設定では、モデルへの追加入力としてスピーカー ID を提供することで、スピーカーを選択できます。同様に、TTS の場合、追加の入力としてテキストに関する情報を提供する必要があります。

グローバル条件付けとローカル条件付けという 2 つの異なる方法で、他の入力でモデルを条件付けます。グローバル条件は、TTS モデルに埋め込まれたスピーカーなど、すべての時間ステップで出力分布に影響を与える単一の潜在表現 h によって特徴付けられます。式 (2) の活性化関数は次のようになります。
ここに画像の説明を挿入
ここで、V∗,k は学習可能な線形投影であり、ベクトル VT∗,kh は時間次元でブロードキャストされます。

局所条件付けのために、TTS モデルの言語機能など、オーディオ信号よりもサンプリング周波数が低い可能性のある 2 番目の時系列 ht があります。最初にこの時系列を転置された畳み込みネットワーク (アップサンプリングを学習) を使用して変換し、オーディオ信号と同じ解像度で新しい時系列 y = f(h) にマッピングしてから、活性化関数を使用します。
ここに画像の説明を挿入
* y は 1×1 畳み込みになりました。畳み込みネットワークを転置する代わりに、Vf,k∗h を使用してこれらの値を繰り返し使用することもできます。私たちの実験では、これはわずかに効果が低いことがわかりました。

2.6 コンテキストスタック

WaveNet の受容野サイズを大きくするには、拡張レイヤーの数を増やす、より多くのレイヤーを使用する、フィルターを大きくする、拡張係数を大きくする、またはそれらの組み合わせを使用するなど、いくつかの異なる方法について説明しました補完的なアプローチは、別の小さなコンテキスト スタック (スタック) を使用してオーディオ信号の大部分を処理し、オーディオ信号の小さな部分 (最後にトリミング) のみを処理する大きな WaveNet をローカルで調整することです隠しユニットの長さと数が異なる複数のコンテキスト スタックを使用できます。より大きな受容野を持つスタックは、レイヤーあたりのユニット数が少なくなります。コンテキスト スタッキングでは、プーリング レイヤーの実行頻度を下げることもできます。これにより、計算要件が妥当なレベルに保たれ、より長い時間スケールでの一時的な依存関係のモデル化に必要な容量が少なくて済むという直感と一致します。

3 実験

WaveNet のオーディオ モデリング パフォーマンスを測定するために、マルチスピーカー音声生成 (テキストに条件付けされていない)、TTS、音楽オーディオ モデリングの 3 つの異なるタスクで評価します。次の Web サイトでは、これらの実験のために WaveNet から抽出されたサンプルを提供しています: https://www.deepmind.com/blog/wavenet-generation-model-raw-audio/.

3.1 マルチスピーカー音声生成

最初の実験では、自由形式の音声生成 (テキストを条件としない) を調査しました。CSTR Voice Cloning Toolkit (VCTK) (Yamagishi, 2012) の英語マルチスピーカー コーパスを使用し、スピーカーのみで WaveNet を調整します。条件付けは、スピーカー ID をワンホット ベクトルの形式でモデルに供給することによって行われます。このデータセットには、109 人の異なる話者からの 44 時間分のデータが含まれています。

このモデルはテキストに条件付けられていないため、存在しないが人間のような言葉を流暢に、リアルなイントネーションで生成します。これは言語や画像の生成モデルに似ており、サンプルは一見リアルに見えますが、よく見ると明らかに不自然です。長距離コヒーレンスの欠如の理由の一部は、モデルの受容野のサイズが限られている (約 300 ミリ秒) ことです。つまり、生成された最後の 2 ~ 3 個の音素しか記憶できません

単一の WaveNet は、話者のワンホット エンコーディングを調整することにより、任意の話者からの音声をモデル化できます。これにより、データセットから 109 人の話者すべての特徴を 1 つのモデルに取り込むのに十分強力であることが確認されました。スピーカーを追加すると、単一のスピーカーのみでトレーニングする場合と比較して、検証セットのパフォーマンスが向上することがわかりますこれは、WaveNet の内部表現が複数のスピーカー間で共有されていることを示唆しています

最後に、モデルは音声自体以外の音声の他の特徴も発見することを観察します。また、スピーカーの呼吸や口の動きだけでなく、音質や録音品質も模倣します。

3.2 テキスト読み上げ

2 番目の実験では、TTS を調査しました。Google の北米英語および北京語 TTS システムと同じ一人称音声データベースを使用しました。北米英語のデータセットには 24.6 時間の音声データが含まれ、北京語のデータセットには 34.8 時間の音声データが含まれており、どちらもプロの女性スピーカーによって話されています。

TTS タスクの WaveNet は、入力テキストから取得した言語機能に基づいてローカルに調整されます。言語機能に加えて、対数基本周波数 (log F0) 値を条件とする WaveNet のトレーニングも行います。言語の特徴から logF0 値と通話時間を予測する外部モデルも、言語ごとにトレーニングされました。WaveNet の受容野サイズは 240 ミリ秒です。例ベースおよびモデルベースの音声合成ベースラインとして、隠れマルコフ モデル (HMM) 駆動の単位選択接続 (Gonzalvo et al., 2016) および長短期記憶再帰型ニューラル ネットワーク (LSTM-RNN) に基づく統計パラメーター ( Zen et al., 2016) は、音声シンセサイザーを構築しました。ベースラインと WaveNet は同じデータセットと言語機能を使用してトレーニングされるため、これらの音声シンセサイザーは公平に比較​​できます。

TTS タスクでの WaveNet のパフォーマンスを評価するために、主観的なペアワイズ比較テストと平均オピニオン スコア (MOS) テストを実施します。ペア比較テストでは、サンプルの各ペアを聞いた後、被験者はどちらが好きかを選択するように求められましたが、好みがなければ「どちらでもない」を選択できました。MOS テストでは、被験者は各刺激を聞いた後、その刺激の自然さをリッカート 5 段階 (1: 悪い、2: 悪い、3: 普通、4: 良い、5:非常に良い) で評価するよう求められました。詳細については、付録 B を参照してください。

図 5 は、選択された主観的ペアワイズ比較テストの結果を示しています (完全な表については、付録 B を参照してください)。結果からわかるように、WaveNet は、両方の言語でベースラインの統計パラメーターとカスケード スピーチ シンセサイザーよりも優れています。言語的特徴に基づいて調整された WaveNet は、自然な分節品質で音声サンプルを合成できますが、文中の間違った単語を強調することで不自然な韻律を持つことがあります。これは、F0 プロファイルの長期的な依存性が原因である可能性があります。WaveNet の 240 ミリ秒の受容野サイズは、この長期的な依存性を捉えるには不十分です。言語機能と F0 値に基づく WaveNet には、この問題はありません。外側の F0 予測モデルは、より低い周波数 (200 Hz) で実行されるため、F0 プロファイルに存在する長期的な依存関係を学習できます。
ここに画像の説明を挿入
表 1 に MOS テストの結果を示します。表からわかるように、WaveNets は 4.0 を超える自然度で 5 スケール MOS を達成し、ベースライン システムを大幅に上回っています。これらは、これらのトレーニング データセットとテスト センテンスで報告された最高の MOS 値です。最良の合成音声から自然音声への MOS ギャップは、米国英語で 0.69 から 0.34 (51%) に、北京語で 0.42 から 0.13 (69%) に減少します。
ここに画像の説明を挿入

3.3 音楽

3 番目の実験セットでは、WaveNet をトレーニングして 2 つの音楽データセットをモデル化します。

  • MagnaTagA Tune データセット (Law & V on Ahn、2009 年) には、約 200 時間の音楽オーディオが含まれています。29 秒の各クリップには、音楽のジャンル、楽器編成、テンポ、音量、ムードを説明する 188 個のタグのセットから注釈が付けられます。
  • YouTube 動画から取得した約 60 時間のソロ ピアノ音楽を含む YouTube ピアノ データセット。単一の楽器に限定されているため、モデル化がはるかに簡単です。

これらのモデルを定量的に評価することは困難ですが、サンプルを聞くことで主観的に評価することができます。受容野を拡大することは、心地よい音のサンプルを得るために重要であることがわかりました数秒の受容野でも、これらのモデルは長期的な一貫性を達成できず、ジャンル、楽器、音量、および音質が瞬間的に変動します。それでも、無条件のモデルによって作成された場合でも、これらのサンプルはしばしば調和がとれており、審美的に満足しています。

特に興味深いのは、ジャンルや楽器などを指定する一連のタグを指定して音楽を生成できる条件付き音楽モデルです。条件付き音声モデルと同様に、各トレーニング クリップに関連付けられたラベルのバイナリ ベクトル表現に依存するバイアスを挿入します。これにより、サンプルの目的のプロパティをエンコードするバイナリ ベクトルを入力することで、サンプリング時にモデルの出力のさまざまな側面を制御できます。MagnaTagATune データセットでこのようなモデルをトレーニングしました; データセットにバンドルされているラベル データは比較的ノイズが多く、多くの欠落がありますが、同様のラベルをマージしてラベルをクリーンアップし、関連付けられたクリップが少なすぎるラベルを削除した後、データを調べた後、発見しました。このアプローチは非常に効果的です。

3.4 音声認識

WaveNet は生成モデルとして設計されていますが、音声認識などの識別オーディオ タスクに直接適用できます

従来、音声認識の研究は、対数メルフィルター バンク (mel-filterbank) エネルギーまたはメル周波数ケプストラム係数 (MFCC) の使用に焦点を当ててきましたが、最近では生の音声に注目しています (Palaz et al ., 2013; Tüske et al. ., 2014; Hoshen et al., 2014)。LSTM-RNN などのリカレント ニューラル ネットワークは、長距離のコンテキストをモデル化できるため、これらの新しい音声分類パイプラインの重要なコンポーネントになりました。WaveNet を使用すると、拡張された畳み込み層が LSTM ユニットよりも効率的な方法で受容野を長くできることが示されました

最後の実験として、TIMIT (Garofolo et al., 1993) データセットの音声認識に WaveNets を使用します。このタスクでは、拡張された畳み込みの後に平均プーリング レイヤーを追加します。これにより、アクティベーションが 10 ミリ秒にわたる粗粒度のフレームに集約されます (160 倍のダウンサンプリング)。プーリング層の後には、いくつかの非因果的畳み込みが続きます。1 つは次のサンプルを予測するため、もう 1 つはフレームを分類するための 2 つの損失項を使用して WaveNet をトレーニングすると、モデルは単一の損失よりも一般化され、テスト セットで 18.8 PER を達成します。生のオーディオに対して直接 TIMIT を実行します。

ここに画像の説明を挿入
(付録より)

4 結論

このホワイト ペーパーでは、波形レベルで直接動作するオーディオ データの深い生成モデルである WaveNet について説明します。WaveNet は自己回帰的であり、因果フィルターと拡張畳み込みを組み合わせて、受容野を深さとともに指数関数的に成長させます。これは、アナログ オーディオ信号の長距離の時間的依存性にとって重要ですWaveNet が他の入力に基づいてグローバルに (例: 話者のアイデンティティ)、またはローカルな方法 (例: 言語的特徴) で条件付けられる方法を示しました。TTS に適用すると、WaveNets は主観的な自然さの点で現在の最先端の TTS システムよりも優れたサンプルを生成します。最後に、WaveNet を音楽オーディオ モデリングと音声認識に適用すると、非常に有望な結果が得られます。

おすすめ

転載: blog.csdn.net/weixin_39653948/article/details/123926899