ドリアン:マルチモーダル合成のための持続時間情報に基づく注意ネットワーク紙の理解

-1。説明

ドリアン:マルチモーダル合成のための持続時間情報に基づく注意ネットワーク

DURIAN:ネットワークの持続時間を伝えるマルチモーダル合成

  • タコトロンより遅い紙の方が揃えやすいはずですが、トレーニングが早くなることを願っています。

0.まとめ

本論文では、高い自然言語と顔の表情を同時に生成できる、ユニバーサルで堅牢なマルチモーダル合成システムを提案します。システムの重要な部分は、Duration Informed Attention Network(DurIAN)です。これは、入力テキストと出力音響特徴の間のアラインメントが継続時間モデルから明示的に推測された自己回帰モデルです。これは、既存のエンドツーエンドの注意メカニズムとは異なり、タコトロンなどのエンドツーエンドの音声合成システムで避けられないさまざまな手作業を完全に回避することはできないことを示しています。さらに、DurIANを使用して高品質の顔の表情を生成でき、音声および顔のデータを生成された音声と並列/非並列で同期できます。音声生成の効率を改善するために、マルチバンドWaveRNNモデルに基づく並列生成戦略も提案しました提案されたマルチバンドWaveRNNは、計算の複雑さ全体を9.8GFLOPSから3.6GFLOPSに効果的に削減し、単一のCPUコアでリアルタイム速度の6倍の速度でオーディオを生成できます。DURIANは、現在の最先端のエンドツーエンドシステムと同等の非常に自然な音声を生成できると同時に、これらのシステムでの単語のスキップ/繰り返しエラー回避できることを証明しました最後に、シンプルで効果的な方法で、声と表情の能力をきめ細かく制御する方法を紹介します。

1.はじめに

接続方法[1、2]や統計パラメータシステム[3、4、5]を含む従来の音声合成方法は、すべて音響特性の分析と合成に基づいています。これらの方法は、堅牢性と効率性に優れているため、依然として主に産業用アプリケーションで使用されています。ただし、これらの方法には次の欠点があります。生成された音声の自然性が悪い。エンドツーエンドの方法[6、7、8、9、10、11]は、包括的な結果が大幅に自然になり、トレーニングプロセスが簡素化されるため、最近大きな注目を集めています。残念ながら、既存のエンドツーエンドシステムは、生成された音声でソーステキスト内のランダムな単語が繰り返されたりスキップされたりする予測できないアーティファクトを生成するため、音声を生成する際の堅牢性に欠けています[7,11]。時間領域外のテキストを合成します。マルチモーダル合成タスクの場合、音声と顔の表情の同期は、エンドツーエンドシステムが直面するもう1つの課題です。音声と顔の特徴をエンドツーエンドでペアリングしてモデルを生成できます。この方法では、トレーニングのために大量のペアの音声と顔の表情データが必要です。このようなペアの声の表情データは収集に費用がかかり、必要な音声および仮想シーンで異なるソースからの写真を取得することはできません。

  • [1] AJHuntおよびAWBlack、「大規模な音声データベースを使用した連結音声合成システムでのユニット選択」、1996年IEEE International Conference on Acoustics、Speech、and Signal Processing Conference Proceedings、vol。1、pp。373–376、IEEE、1996
  • [2] AWBlackおよびPATaylor、「音声合成におけるユニット選択のために類似のユニットを自動的にクラスタリングする」、1997年。
  • [3]徳田、吉村、増子、小林、北村、「hmmベースの音声合成のための音声パラメータ生成アルゴリズム」、2000 IEEE International Conference on Acoustics、Speech、and Signal Processing 。議事録(カタログ番号00CH37100)、vol。3、pp。1315–1318、IEEE、2000。
  • [4] H. Zen、K。Tokuda、およびAW Black、「統計的パラメトリック音声合成」、音声コミュニケーション、vol。51、いいえ。11、pp。1039-1064、2009。
  • [5] H. Zen、A。Senior、およびM. Schuster、「ディープニューラルネットワークを使用した統計的パラメトリック音声合成」、2013年、音響、音声、および信号処理に関するieee国際会議、pp。7962–7966、IEEE、2013年
  • [6] Y. Wang、R。Skerry-Ryan、D。Stanton、Y。Wu、RJ Weiss、N。Jaitly、Z。Yang、Y。Xiao、Z。Chen、S。Bengio、他、「Tacotron :エンドツーエンドの音声合成に向けて」、arXiv preprint arXiv:1703.10135、2017
  • [7] J. Shen、R。Pang、RJ Weiss、M。Schuster、N。Jaitly、Z。Yang、Z。Chen、Y。Zhang、Y。Wang、R。Skerrv-Ryan、他、「Naturalメルスペクトログラム予測でウェーブネットを調整することによるtts合成」、2018 IEEE International Conference on Acoustics、Speech and Signal Processing(ICASSP)、pp。4779–4783、IEEE、2018
  • [8] N. Li、S。Liu、Y。Liu、S。Zhao、M。Liu、およびM. Zhou、「トランスフォーマーを備えた人間品質のttsに近い」、arXiv preprint arXiv:1809.08895、2018
  • [9] W. Ping、K。Peng、およびJ. Chen、「クラリネット:エンドツーエンドのテキストから音声への並列波の生成」、arXiv preprint arXiv:1807.07281、2018
  • [10] J. Sotelo、S。Mehri、K。Kumar、JF Santos、K。Kastner、A。Courville、Y。Bengio、「Char2wav:エンドツーエンドの音声合成」、2017年
  • [11] W. Ping、K。Peng、A。Gibiansky、SO Arik、A。Kannan、S。Narang、J。Raiman、およびJ. Miller、「ディープボイス3:畳み込みシーケンス学習によるテキストから音声へのスケーリング、」arXiv preprint arXiv:1710.07654、2017

FastSpeechにいくぶん似ていますが、実際、FastSpeechは蒸留であり、蒸留による教師の注意効果を模倣します。その上限は、Transformer TTS +離散化された音素持続時間のマージです。

そして、DuRIANは、ForceAlignmentの歴史を情報として組み合わせ、微調整に注意を払い、それぞれがその任務を遂行することで、情報量も増加し、単純ではなく、各フレームに対応する特定の時間があります。単調に上昇する情報が1つしかないFastSpechのように

 

この記事では、Duration Awareness Network(DurIAN)を提案します。これは、非常に自然で堅牢な音声と顔の表情を生成する、一般的なマルチモーダルの包括的なフレームワークです1。DurIANは、従来のパラメータシステムと最新のエンドツーエンドシステムを組み合わせたもので、音声生成の自然さと堅牢性を同時に実現できます。この最新のエンドツーエンドシステムは、従来のパラメータシステムをさまざまな角度から凌駕しています。エンコーダーの使用を含む手動で設計された言語関数を置き換えるために、予測問題の過度の滑らかさの問題を解決するための自動回帰モデル、従来のソースフィルターボコーダーを置き換えるためのニューラルボコーダーの使用、およびエンドツーの注意メカニズム-トレーニングと最適化を終了します

 

私たちの観察と分析は、既存のエンドツーエンドシステムにおける音声の不安定性がエンドツーエンドの注意メカニズムによって引き起こされることを示しています。したがって、DurlANの背後にあるコアアイデアは、既存のエンドツーエンドシステムの他の進歩を維持しながら、エンドツーエンドのアテンションメカニズムをパラメータシステムと同様のアラインメントモデルに置き換えます。アラインメント+アテンションが導入されます。期間モジュール存在の、それはまた、パラレルコーパスなしで、顔によって簡単に生成することができます

 

この記事の主な貢献は次のとおりです。

  • 1. Tacotron 2 [7]システムのエンドツーエンドの注意メカニズムを、従来のパラメトリックシステムのモデルに置き換えることをお勧めします。私たちの経験によれば、提案された方法は、タコトロン2によって生成されるものと同等の非常に高い自然な音声を生成できますが、ドリアンはより堅牢で安定した音声を生成します。注意が使用されていないわけではありませんが、位置合わせは従来の方法で行われ、後で調整するための注意があります。
  • 2. Skip Encoderを使用して、階層的な中国語韻律の音素シーケンスと韻律構造を表し、ドメイン外の一般化された中国語音声合成タスクでのDurAINシステムの処理を改善します。
  • 3.トレーニング中にきめの細かいラベルを使用せずに、監視された設定できめの細かいスタイルを制御するためのシンプルで効果的な方法を提案します。これは、従来のマルチスタイルトレーニング(従来のマルチスタイルトレーニング)の拡張です。
  • 4.元のWaveRNNモデル[14]を削減し、単一のCPUでの推論プロセスを高速化するためのマルチバンド同期並列WaveRNNアルゴリズム(マルチバンド同期並列WaveRNN)について説明します。

2ドリアン

  • スキップエンコーダからの非表示状態出力の長さNは、入力シーケンスの長さNとは異なります。これは、韻律境界に関連付けられた非表示状態がスキップエンコーダの最終出力から除外されるためです。
  • ここでの状態拡張は、基本的に、特定の音素シーケンスの期間に従って、非表示の状態を順番にコピーすることです。トレーニング中に、入力音素シーケンスとターゲット音素特徴y1:Tが与えられると、各音素の持続時間は強制的な位置合わせによって取得されます。合成段階では、持続時間モデルによって予測された音素持続時間を使用します。アラインメントモデルの拡張された非表示状態をターゲットサウンドフレームと正確にペアリングして、各サウンドフレームを自動的に予測するようにデコーダーネットワークをトレーニングできます。

 

2.1。エンコーダーをスキップ

注:実際には、SilがForceAlignmentのフレームに対応していることを考慮する必要があります。

スキップエンコーダの主な目的は、音素シーケンスの表現と非表示状態の階層的な韻律構造をエンコードすることです。韻律構造は、中国語の音声合成タスクにおける外国語テキスト音声合成システムの一般化能力を向上させるための重要な部分です。エンコーダーをスキップする入力を生成するために、ソーステキストは最初に音素シーケンスに変換されます。さまざまなレベルの韻律構造をエンコードするために、入力音素間のさまざまなレベルの韻律の境界を表す特別な記号を挿入します。上の図は、韻律の境界を表すこれらの特別な記号を挿入する方法を示しています

  • スキップの詳細は省略されていますので、その時のコードを見てください

2.2。アライメントモデル

予想通り、私は詳細に書きません:

  • 音声合成の重要なタスクは、音素シーケンスとターゲット機能/スペクトルシーケンスの間の隠れた配置を明らかにすることです。エンドツーエンドシステムは、この一貫性を発見するために注意ベースのメカニズムに依存しています。ただし、既存のエンドツーエンドの注意メカニズムは、生成された音声で一部の単語がスキップまたは繰り返される、予測できないアーティファクトを生成することがよくあります。プロダクション音声合成システムはこの不安定性に対する許容度が非常に低いため、エンドツーエンドの音声合成システムは実際のアプリケーションに広く展開されていません。DurIANでは、注意メカニズムをアラインメントモデル[15、16]に置き換えます。このモデルでは、音素シーケンスとターゲット音響シーケンスの間のアラインメントが音素持続時間予測モデルから推測されます。各音素の持続時間は、整列された音響フレームの数によって測定されます。トレーニングプロセス中に、音響フレームシーケンスと入力音素シーケンスの間のアラインメントは、音声認識で広く使用されている強制アラインメントによって取得できます。次に、アラインメントは非表示状態の拡張に使用され、音素の長さに基づいて非表示状態をコピーするだけです。合成プロセスでは、個別の持続時間モデルを使用して、各音素の持続時間を予測します。この期間モデルは、文全体が与えられた場合に、予測された音素期間と強制アライメントによって取得された期間の間の平均二乗誤差を最小化するようにトレーニングされています。状態が展開された後、各携帯電話の各フレームの相対位置は0〜1の値としてエンコードされ、エンコーダー状態に追加されます。拡張エンコーダの状態は、ドリアンでは予測された通話時間から推測されることを除いて、エンドツーエンドシステムで推定された注意コンテキストに似ています。

2.3デコーダー

明確にしませんでした。コードが表示されるまで待ちます。要するに、デコーダー部分にも注意が必要です。

  • まだもつれたreduce_factorを使用しますか?

2.4マルチモーダル合成

少し

3.きめ細かいスタイルコントロール

少し

4.マルチバンドWaveRNN

少し

5.その他

おすすめ

転載: blog.csdn.net/u013625492/article/details/114827085