SPEAR-TTS:話す、読む、促す: 最小限の監視による忠実度の高いテキスト読み上げ

  • 2023.2.7
  • Google リサーチ\
  • ユージン・ハリトーノフ

抽象的な

  • 2 つの個別の特徴表現を使用して、TTS は 2 つの seq2seq タスクに分解されます。(1) テキストからセマンティック トークンへ。読み取りと同様、オーディオとテキストの並列データが必要です (2) セマンティック トークンから音響トークンへ。スピーキングと同様、ピュア オーディオのみが必要です。したがって、結果として得られるオーディオの品質と多様性は、利用可能な並列データとは無関係です。従来の処理方法では、TTS は並列データ (テキストと音声のペア) を必要とするため、データ ソースが制限されます。このような二段階の改善により、インターネット上の大量のピュアオーディオデータを活用することが可能となります。
  • 効果: シングル プレーヤー TTS の場合、マルチ スピーカーで微調整する必要があるのは 15 分のオーディオ テキスト データだけです。新しいパッチのクローン作成には、3 秒の登録オーディオのみが必要です。

イントロ

  • オーディオの離散化: 離散特徴の限られた辞書を使用してオーディオを離散化し、audioLM はオーディオをセマンティック トークンと音響トークンの 2 つの部分に離散化します。
  • この論文の 2 段階のプロセスは機械翻訳に似ており、BART/T5 などの事前トレーニングを使用し、逆翻訳スキルを支援することで、並列データ トレーニングに対する SPEAR-TTS の依存度が大幅に軽減されます。
  • 音声プロンプト: 言語モデルのトレーニング手法と同様に、プロンプトの例としてクリップ オーディオを使用します。これにより、単一スピーカーの並列データのみがある場合のマルチスピーカー システム構築の制御性が簡素化されます。
  • ランダム サンプリングにより多様性が向上: 合成音声の品質を向上させるために、客観的な品質指標に基づくサンプリング方法が提案されています。
  • 実験:事前学習と逆翻訳にはLibriTTS(551h)のデータを、一人構築には15min(LJSpeech)のデータを使用しました。高ピッチの合成音声、LibriSpeech テストクリーンで CER 1.92%、さまざまな音色の合成音声、3 秒間の見えないスピーカーの音声で音色を完全再現、高生成品質、MOS 4.96 対 4.92。

離散音声表現

主にAudioLMの設計を参考にしています。

  • 意味論的トークン: 音声から意味論的に明白な情報を抽出する必要があり、話者の身元やさらなる教育の詳細などの残りの準言語情報は含まれない場合があります。自己教師ありモデルは w2v-BERT に基づいてトレーニングされ、特定のレイヤーの出力が k 平均法を使用してクラスター化され、インデックス付き kmeans の結果のみが離散特徴として取得されます。
  • 音響トークン: SoundStream を特徴抽出ツールとして使用して、高精度オーディオを再構築するために使用されます。残留多値量子化。

SPEAR-TTSの概要

ここに画像の説明を挿入

stage1:監督効率の向上

  • テキストからセマンティック トークンへのマッピングでは、セマンティック トークンは主にテキスト関連の情報ですが、韻律と話者の情報も含まれます。これは、音響トークンを直接予測するよりも難しくありません。テキストと比較して、音響トークンのより正確な予測も提供されます。たくさんの情報。
  • オーディオ テキスト データ トレーニングに基づいて、トランスフォーマー ベースのエンコーダー/デコーダー構造またはデコーダーのみの構造を通じて、オーディオからセマンティック トークンを抽出できます。
  • Transformer のトレーニングには大量のデータが必要ですが、一部の言語では利用可能な音声テキスト データがそれほど多くないため、事前トレーニング + 逆変換を使用して並列データ リソースの不足の問題を解決できます。

事前トレーニング

  • BART/T5 と同様に、ノイズ除去口実タスク タスク、ダメージ トークン (他のダメージ操作、置換、削除などを含む。著者は削除の方が効果的であることがわかりました) に基づいて事前トレーニングし、モデルにロスレスを予測させます。トークンシーケンス
  • 事前トレーニング後、エンコーダー上位層とデコーダー+ の間のアテンション層パラメーターをフリーズし、並列データに基づいてエンコーダー下位層を更新します。
  • まず、純粋なオーディオ データが事前トレーニング済みモデルを通過してトランスクリプション情報 (セマンティック トークンと同様) を生成し、次に生成されたデータを使用してステージ 1 モデルのトレーニングを続行し、最後にテキスト オーディオ データに基づいてモデルを微調整します。

逆翻訳

  • 事前トレーニング モデルを使用し、エンコーダーをフリーズし、デコーダーのパラメーターのみを更新します。

ステージ 2: 生成プロセスの制御

ここに画像の説明を挿入

  • セマンティックトークンから音響トークンまでは音声のみのデータに基づいて学習されるため、stage1 では一人の人物のデータだけを使用した場合でも、さまざまな結果(異なる音色/話速など)の音声を生成できます。
  • 合成された音色を制御するには、AudioLM の設計を参照し、(1) 音声プレフィックスがセマンティック トークンのみの場合、後続のオーディオは毎回ランダムに音色をサンプリングします (2) プレフィックスにセマンティック トークン + がある場合音響トークンの場合、後続のオーディオの音色は音響トークンの音色を指します。
  • オーディオの 2 つの重複しない部分をそれぞれプロンプトとターゲットとして取得します。トレーニング中、プロンプトは、(a) セマンティック トークン、(c) プロンプト オーディオから抽出された音響トークン、または (b) ターゲット オーディオから抽出された音響から取得できます。ターゲットの音響トークンを予測するために使用されるトークン。推論フェーズ、ターゲット音響トークンの自動回帰生成。
  • 境界でのエラーを避けるために、境界に <segbound> を追加します。プロンプトに対応するテキスト転写情報は必要なくなりました。
  • この段階で生成される音声にはトレーニング データ セットのノイズが含まれます。推論段階で生成されるノイズを低減するには、次の 2 つの方法があります: (1) プロンプトで S/N 比の高い音声を選択する。 2) 同じデータの場合、次を使用します。無作為抽出、複数のオーディオを生成し、非参照オーディオ品質メトリックを使用して最小ノイズを計算します。DNSMOS と同様のノイズ推定器を使用してモデル化されています。

実験のセットアップ

トレーニングおよび検証データ

  • 音響およびセマンティック トークン: Libri-Light データセット (6 時間時間、7,000 人以上のスピーカー) は、自己教師あり SoundStream、w2v-BERT、および w2v-BERT の kmeans 機能をトレーニングするために使用されます。
  • stage1 トレーニング: LJSpeech の 1 人トレーニング (複数人もサポート)、24 時間データを使用します。同時に、12/3/2/1hと30/15minのデータもリミット検証として分割されます。15 分のデータには、21,000 のセマンティック トークンと 2,000 の単語が含まれています。
  • 事前トレーニング: LibriLight の音声データを使用してセマンティック トークンを抽出します。
  • 逆翻訳: LibriTTS を使用した音声データ。
  • ステージ 2 トレーニング: LibriLight からセマンティック トークンと音響トークンのペアを抽出する

評価データ

  • LJSpeech のオーディオは 10 秒を超えないため、10 秒を超えない LibriSpeech test-clean のオーディオ テキストがテスト合成として選択され、合計約 3 時間のデータが含まれます。

前処理

  • ljspeech の標準略語は拡張されており、G2p_en フォンマイザーを使用して語彙内のアクセント情報を削除しています。辞書には合計 47 個のトークンがあります (CMU DICT からは 39 個)。
  • フォンマイザーは監視が低いシナリオでは汎用的ではないため、書記素を試してください。付録 G

メトリクス

  • CER をテストする: LibriSpeech test-clean を使用して合成し、ASR でテストします。
    ここに画像の説明を挿入

  • 音色の多様性: 事前トレーニングされたスピーカー モデルの使用。
    ここに画像の説明を挿入

  • プロンプトの音色との一貫性

ここに画像の説明を挿入

  • 主観的な MOS スコアリング

ここに画像の説明を挿入
ここに画像の説明を挿入

ハイパーパラメータとトレーニングの詳細

  • セマンティック トークン: サイズ 512 のコードブックを使用する w2v-BERT の第 7 層。1 秒のオーディオは 25 512 個の個別の特徴として表され、25 log512=225bit/sに相当します。
  • 音響トークン: SoundStream の 3 つの量子化器、3*1024 を使用します。1 秒のオーディオは 50hz *3=150 音響トークンとして表され、1500 ビット/秒に相当します。

おすすめ

転載: blog.csdn.net/qq_40168949/article/details/130195174