音声認識のための自己管理型事前トレーニングの有効性
1.要約
元の音声波形データvqを使用して、特定のダウンストリームタスクに接続せずに、量子化後に辞書を取得します。ctclossを直接使用して、事前トレーニング済みのbertモデルに書き起こされた音声タスクを微調整します。効果:bertでの微調整のラベル付きLibrispeecデータの10時間は、既存の最良のモデルの100時間のトレーニングデータの結果と既に同等であり、テストその他のデータでは25%削減されています。
2.モデルのアーキテクチャ
- vq-wav2vec
元の波形データ、畳み込みエンコーダ後f:X −> Z f:X-> Zf:X ->Zとデコーダーの後にG:Z ^ −> C g:\ hat {Z}-> Cg:と^ −>C、wav2vecと比較して、量子化モジュールqが2つの間に追加されています:Z-> Z ^ q:Z-> \ hat {Z}q:から->と^、ディスクリート表現を作成します。これは、集約層gの入力です。オリジナルのzはコードブックei e_iから選択されますe私代わりに。 - Discrete bert
は、vqの離散量子化表現を使用します。比較として、MFCC / filterbank機能を選択して、各時間ステップの表現をk平均で近似します。マスクされた言語モデルタスクのみを使用し、ce lossを使用してモデルをトレーニングし、実際のトークンを予測します。 - 連続bert
入力はwav2vec密特徴、MFCC、FBANKです。ここで、一部の入力はマスクされた埋め込みに置き換えられ、トランスフォーマーのエンコーダーに送られます。マスクされた入力と実際の入力の出力、および他のマスクされた入力からサンプリングされたいくつかの負の例(バッチと同じ)ドット乗算を実行し、infoNCEを最適化してトレーニングする
- 微調整プロセスでは
、事前トレーニングモデルの最後に完全な接続を追加して、ASRタスクを実行し、CTClossを最小限に抑えます。
マスク方法:最初に多数の開始点を選択し、次に各開始点が選択される確率は3.75%dです。20タイムステップごとではなく、マスクされた埋め込みが使用されます。チャネルはマスキングも行います。