GenerSpeech: 一般化可能なドメイン外テキスト読み上げのためのスタイル転送に向けて

抽象的な

  • 目標: アウトオブドメイン (OOD) スタイルの転送 (感情、音色、リズム) を作成する
  • 2 つの改善点: (1) マルチレベル スタイル アダプター: グローバル スタイルとローカル スタイル (発話、音素、および単語レベル) を含む; (2) Mix-Style Layer Normalization を備えたコンテンツ アダプター: 入力テキストの特徴を排除するために使用されます スタイル情報が向上しますモデルの一般化能力。

背景

  • Meta-StyleSpeech、SC-GlowTTS、Styler: 表現力豊かで制御可能なニューラル テキスト読み上げのための音声分解による迅速性と堅牢性を備えたスタイル要素モデリング。
  • OOD スタイルの転送、特にゼロショットにはすべて、新しいターゲット スタイルがベース モデルに転送可能であるという先験的な仮定がありますが、実際には、新しいターゲット スタイルはベース モデル内のデータ分布とは異なる場合があります。モデルは、目に見えないデータが与えられた場合にドメイン シフトに対して不変になる可能性があるため、画像からいくつかのメソッドを借用します。

一般スピーチ

  • 問題の定義: ドメイン外のカスタム音声の転送。
  • 分析: スタイル転送を行う場合は、まずどのフィーチャがスタイル優先で、どのフィーチャがスタイルに無関係であるかを分類する必要があります。
    • スタイルに依存しない (言語コンテンツ)
    • スタイル固有 (話者のアイデンティティ、感情、韻律など)

ミックススタイルレイヤーの正規化 - テキストからスタイル情報を削除します。

ここに画像の説明を挿入します

  • 従来の条件層ノルムに基づいて、話者関連ベクトルが分散され、層ノルムの係数に追加されます。

マルチレベルスタイルアダプター

ここに画像の説明を挿入します

グローバルな代表

  • wav2vec2.0から抜粋、
  • wav2vecで学習した損失はマスクホローイング対比学習であり、得られたモデルの浅層は音色などの比較的大域的な情報、深層はコンテンツ関連の情報です。これは、ASR の事前特徴抽出として使用できます。オーディオ トークンによってトレーニングされた損失は再構成されるため、音声を再構成するために必要なすべての情報が含まれており、TTS 離散化に使用できます。

地元の代表者

  • フレーム/phn/単語レベルの韻律埋め込み: 境界に従って conv プーリングを実行し、VQ 量子化を追加して韻律に無関係な情報をフィルタリングします。

おすすめ

転載: blog.csdn.net/qq_40168949/article/details/132546049