ASRのたたみ込みコンテキストを持つトランスフォーマー

ASRのたたみ込みコンテキストを持つトランスフォーマー

(1)紙のアイデア

元の正弦波位置エンコードは、畳み込みによって学習された入力表現に置き換えられます。元の絶対位置表現と比較すると、この相対位置エンコード効果は、長距離依存性を見つけるために後のトランスフォーマーに役立ちます(浅い層を避けます)位置情報の観点からの変圧器層の学習)。特定の効果:LMモデルなしのLIbrispeechの条件下で、WERは4.7%(クリーン)および12.9%(その他)に達します。

(2)モデル構造

ここに画像の説明を挿入
左側の構造はトランスフォーマーの1つの層の構成です。
右側の構造体は、コンテキストを追加した後のトランスフォーマー全体の構成です:エンコーダーエンド:K 2Dたたみ込み+ layernorm + reluに続いて2D最大プーリング。
デコーダーエンド:各トランスフォーマーこのブロックは、エンコーダーコンテキストに複数のマルチヘッドアテンションレイヤーを使用し、以前の予測結果、つまり合計Nレイヤーに対して1dコンボリューションを実行します。
ここに画像の説明を挿入

(3)実験結果

入力は、25msのウィンドウ+ 3つの基本周波数機能と
2つの2D畳み込み機能で10msによって計算された80Dログメルフィルターバンク係数です。各ブロックには、2つの畳み込みレイヤー、カーネルサイズ3、最大プーリングカーネル2が含まれます。最初のブロック機能マップ64、第2レイヤー128、デコーダー側の1dコンボリューションには3つのレイヤーがあり、最大プーリングレイヤーはありません。

ここに画像の説明を挿入
最初の行は紙の畳み込みコンテキストの構成であり、実験の2番目の行は絶対位置エンコーディングで置き換えられるデコーダー側の畳み込みコンテキストを使用します。効果は大幅に悪化し、2つ(3番目の行)のスプライシングも改善をもたらします;効果を向上させるには、エンコーダレイヤーレイヤーを増やすことが非常に重要です。エンコーダデコーダーのreluレイヤーを増やすと、モデルの効果も向上しますが、エンコーダーとデコーダーのマルチヘッドの数を増やすと、効果に一定のマイナスの影響があります。
ここに画像の説明を挿入
同じ量のパラメーターの場合、より広いコンテキストサイズ/より深い畳み込み層を使用することの効果はより優れています。
ここに画像の説明を挿入
エンコーダーレイヤーの数を増やすと、モデルはサウンドコンテンツにもっと注意を向けることができ、一部のノイズや環境音を無視して、モデルを最も改善します。デコーダ層の数の増加には制限がありますが、それでもメリットがあります。

ここに画像の説明を挿入
結果を他のモデルと比較すると、この記事で使用されているモデルは、他のLMモデルと比較して、2つのデータセットdev otherとtest otherで12%と16%改善されており、たたみ込み変換構成がより優れていることがわかります。音声データ、環境ノイズ、その他の機能間の長距離依存性を学習して、より適切に区別します。クリーンなデータの場合、効果をさらに向上させるには、外部テキストによって確立されたLMも必要です。

おすすめ

転載: blog.csdn.net/pitaojun/article/details/108185879