wav2vec2.0:音声表現の自己教師あり学習のためのフレームワーク

1.wav2vec2.0:音声表現の自己教師あり学習のフレームワーク

(1)紙のアイデア

vq2vecのアイデアに基づいて、潜在空間でのマスクの音声入力を通じて、対照的なタスクをトレーニングして、真の量子化潜在変数表現を他の負の例から区別します(同時に、量子化プロセスの潜在表現をトレーニングします)、結果の表現、少量のラベル付きデータに基づいて微調整すると、良い結果が得られました。vq2vecと比較して、bertに接続する必要はありません。元の2つの個別にトレーニングされたモデルを1つに結合することは、優れたエンジニアリング実装です。

(2)モデルのアーキテクチャ

ここに画像の説明を挿入

  • 機能エンコーダー
    X-> Z:元の生の音声が複数のレイヤーで畳み込まれて、潜在的な音声表現が出力されます。具体的には、次のものが含まれます:畳み込みレイヤー+ゲルレイヤーを含む複数のブロック
    。最初のブロックの畳み込みの後に、グループ正規化が続きます。 Geluを接続し、ネットワークの出力チャネルにレイヤーの正規化を追加します。


  • vq-wav2vecと比較すると、トランスフォーマーZ-> Cを使用した文脈化表現は過度ではなく、連続音声表現は直接入力されます。絶対位置コーディングを使用する代わりに、カーネルサイズ128および16グループの畳み込みが相対位置コーディングとして使用されます。

  • 量子化モジュール
    は、製品の量子化を通じてzを離散表現に変換します。これはvq-wav2vecとは異なります(複数のグループの場合、コードブック共有ベクトルの方が優れています。複数のグループの場合、Gのコードブックが使用され、最終的なベクトルの特性は、異なるコードブックから得られた特性の連結であり、次に別の線形変換。

ここに画像の説明を挿入
g番目のコードブックからのv番目の入力の計算された確率は、上記の式を使用して計算できます。

(3)トレーニングの詳細

トレーニングの目標は、マスクされたすべてのタイムステップで、正しい量子化されたqをKのディストラクタqから変更することを学習させることです^ ^ \ hat qq^ 区別する

  • マスキング
    は、特徴エンコーダーから出力される連続潜在音声表現をマスクし、p = 0.065の確率に従ってマスクの開始インデックスの確率を選択します。マスクのスパンは10です。結果は、タイムステップの約49%がマスクされ、マスクスパンが平均の長さは14.9、つまり299msです。

  • トレーニング目標の表現

ここに画像の説明を挿入
ここで、Lmは対比損失を表しここに画像の説明を挿入
、ディストラクタは同じシーケンスの他のマスクタイムステップから均一に選択されます。sim(a、b)= a T b / ∣ ∣ a ∣ ∣ ∗ ∣ ∣ b ∣ ∣ sim(a、b)= a ^ Tb / || a || * || b ||s i m a b =aT b/ab

Ldはダイバーシティ損失を表し、
ここに画像の説明を挿入
損失は​​各コードブックのV表現の使用を平均化することです。具体的な方法は、平均ソフトマックス分布I(GxV)のエントロピーを最大化することです。ここで、pˉg \ bar p_gpˉグラム コードブックgソフトマックス分布の平均を表します。

L2正則化は、トレーニングを安定させるために、層の正規化の前に、特徴エンコーダーの最後の層のアクティブ化関数に追加されます。

微調整部分は、ランダムに初期化された線形層をコンテキストネットワークの結果に接続し、ctc損失を最小化することによってトレーニングします。

(4)実験構成と結果

事前トレーニング段階では、基本モデルと大規模モデルの2つの構成を採用します。
言語モデルは4グラムとトランスフォーマーLMを採用。
ここに画像の説明を挿入
少量のラベル付きデータを使用したトレーニングの結果。

ここに画像の説明を挿入
960hのラベル付きデータでのトレーニング結果と教師ありモデル/半教師ありモデルの比較結果。
ここに画像の説明を挿入
TIMITの音素認識で最新の技術に到達しました。PERが23%と29%減少しました。
ここに画像の説明を挿入
継続的な入力(より適切なコンテキスト情報を保持)は、量子化されたターゲットのパフォーマンスを予測します(トレーニングの安定性に貢献)トレーニング方法最高の。
考えられる将来の改善:(1)トランスフォーマー+ ctcをseq2seqモデルに置き換えます;(2)使用される音響モデルの単語リスト(文字)がLMモデル(単語ベース)の単語リストと一致しません。(3)データバランスのために新しい単語(4)を使用します(5)自己学習を導入します。

おすすめ

転載: blog.csdn.net/pitaojun/article/details/108164898