2021-3-6TTSでのグループ会議グラフニューラルネットワークアプリケーション

1.GNNの概念

1.1。グラフニューラルネットワークの概念

  1. G = {V、E}、有向、無向、加重、非加重、同形、不均一(異なる構造/意味を持つエッジ/ポイント)
  2. なぜそれを使用するのですか?データには非ユークリッド距離の意味があります
  3. ユークリッド距離:たとえば、猫の写真を認識するCNNは、単純な距離で表すことができます(エッジを作成する必要はありません)。
  4. グラフニューラルネットワーク:隣接ノード情報を含む状態機能(状態埋め込み)を学習し、隣接ノードはエッジです。エッジを使用すると、グラフにアップグレードされます。

1.2.GNN固有の構造

  1. 反復関数Fを導入します(最終的に、グラフは安定または不安定になる可能性があり、フローが重要です)、Hは一般的なグラフの情報を表します
  2. グラフニューラルネットワークは、伝播ステップ、出力ステップに分けられます。
  3. 損失は​​、ポイントの値、エッジの値をトレーニングでき、エッジの値とポイントの値は、画像全体と情報通信を行います

2. GraphTTS-1

2.1.GraphTTSの目標

  1. リズムのモデリング
  2. NLPでの複雑な機能の導入と同様
  3. グラフの構造は専門家の知識によるテキストの分析と一致しており、GNNがより適しています
  4. 元のエンコーダ構造を直接置き換える

2.2.GraphTTS構造

  1. テキスト内のポイントとエッジを定義します。英語の文字はポイント、仮想ポイントはワードポイントとセンテンスポイントです。順序エッジ、逆順エッジ、親ノードワードエッジ、親ノードセンテンスエッジ
  2. #タグとの違いは、構造の利便性を利用して単語の境界情報を表示することです。
  3. コードの観点では、エンコーダーのRNNがGCNに変更され、伝播ステップと出力ステップがあります。

3. GraphTTS-2

3.1。GAE

  1. Tacotronのエンコーダーを維持し、GAEモジュールモデリング構文と韻律の間の情報関係を個別に設計します
  2. GAEの入力は境界情報+テキストであり、出力はアテンションメモリとして使用されます(情報を残しておくためにエンコードされた出力とスプライスすることができます)

4.2つの構造の実験結果

  1. 地図を使用してください、MOSは良いでしょう
  2. GGNNはGCNよりも優れています
  3. 写真を使用すると、注意を間違えやすいので、GAEはすべての面で最高です
  4. しかし実際には、GAEモデルでは、GAEモジュールの自然な構造と入力が韻律情報の取得に役立ち、同時にエンコーダーと一緒に発音情報を表現することは、機能の分離のアイデアではなく、ポストこの構造を追加した正味残余アイデア、強化可能

5.疑問

エンコーダーの機能にスプライスされたスタイルシーケンスとスタイル埋め込みはどこにありますか

6. GraphSpeech

6.1コアワーク

  1. Relation Encoderは、2つの単語間の文法的な関係をモデル化し、それらの文法的な依存関係ツリーを特徴付けます->文法的な依存関係グラフ(一方向のエッジが双方向になり、重みが異なります)。グラフ内のノード間の最短パスは2つの単語間の関係(距離はギャップの直感的な尺度であるため);単語間の距離が決定され(自分で自己エッジを構築する)、charレベルはそれらが属する単語間の距離です。最後に、依存関係任意の2つの単語間の関係を取得できます(N * N-1)シーケンス、Rij、Rii-> Cij、Cii;同じBi-GRUを介してN * N-1シーケンスN * N-1、Cijを計算します 
  2. グラフエンコーダー、文法に基づいて注意を引くようにTransformerを改善し、Cijはドットスコアまたは追加スコアを改善します。これは、より正確な位置エンコーディングと同等です。

7.アイデア

7.1TTSでのGCNの簡素化

Yixuanの考えによれば、YixuanはGCNを使用して、単語依存、音素+ bert_out +依存->言語機能を直接使用したいと考えています(ただし、この方法はGraphSpeechよりも難しく、トレーニングできません)

親ノード情報のみを含むGCNは調整が容易ではないため、この方法ではGCNの構造と重み単純化する必要があります。

  1. エッジのクラス全体を決定してから、同じクラスの共有エッジ(同じエッジ)を決定します。テキストの文法的な依存関係は非常に規則的で均一であるため、これを使用してグラフニューラルネットワークのエッジの重みを単純化できます。 。
  2. 単語の品詞もノードに反映され、特定の薄暗い共有が必要です
  3. これはTTS-Simplify-GCNと呼ぶことができます。TTSに類似した注意はそれほど強力である必要はありません。

8.実装の詳細

8.1.GNNライブラリ

  1. PyG
  2. DGL

8.2。実験計画

この世界の進士は近視に満ちている

ハハ

 

 

おすすめ

転載: blog.csdn.net/u013625492/article/details/114439807