ASRのたたみ込みコンテキストを持つトランスフォーマー
(1)紙のアイデア
元の正弦波位置エンコードは、畳み込みによって学習された入力表現に置き換えられます。元の絶対位置表現と比較すると、この相対位置エンコード効果は、長距離依存性を見つけるために後のトランスフォーマーに役立ちます(浅い層を避けます)位置情報の観点からの変圧器層の学習)。特定の効果:LMモデルなしのLIbrispeechの条件下で、WERは4.7%(クリーン)および12.9%(その他)に達します。
(2)モデル構造
左側の構造はトランスフォーマーの1つの層の構成です。
右側の構造体は、コンテキストを追加した後のトランスフォーマー全体の構成です:エンコーダーエンド:K 2Dたたみ込み+ layernorm + reluに続いて2D最大プーリング。
デコーダーエンド:各トランスフォーマーこのブロックは、エンコーダーコンテキストに複数のマルチヘッドアテンションレイヤーを使用し、以前の予測結果、つまり合計Nレイヤーに対して1dコンボリューションを実行します。
(3)実験結果
入力は、25msのウィンドウ+ 3つの基本周波数機能と
2つの2D畳み込み機能で10msによって計算された80Dログメルフィルターバンク係数です。各ブロックには、2つの畳み込みレイヤー、カーネルサイズ3、最大プーリングカーネル2が含まれます。最初のブロック機能マップ64、第2レイヤー128、デコーダー側の1dコンボリューションには3つのレイヤーがあり、最大プーリングレイヤーはありません。
最初の行は紙の畳み込みコンテキストの構成であり、実験の2番目の行は絶対位置エンコーディングで置き換えられるデコーダー側の畳み込みコンテキストを使用します。効果は大幅に悪化し、2つ(3番目の行)のスプライシングも改善をもたらします;効果を向上させるには、エンコーダレイヤーレイヤーを増やすことが非常に重要です。エンコーダデコーダーのreluレイヤーを増やすと、モデルの効果も向上しますが、エンコーダーとデコーダーのマルチヘッドの数を増やすと、効果に一定のマイナスの影響があります。
同じ量のパラメーターの場合、より広いコンテキストサイズ/より深い畳み込み層を使用することの効果はより優れています。
エンコーダーレイヤーの数を増やすと、モデルはサウンドコンテンツにもっと注意を向けることができ、一部のノイズや環境音を無視して、モデルを最も改善します。デコーダ層の数の増加には制限がありますが、それでもメリットがあります。
結果を他のモデルと比較すると、この記事で使用されているモデルは、他のLMモデルと比較して、2つのデータセットdev otherとtest otherで12%と16%改善されており、たたみ込み変換構成がより優れていることがわかります。音声データ、環境ノイズ、その他の機能間の長距離依存性を学習して、より適切に区別します。クリーンなデータの場合、効果をさらに向上させるには、外部テキストによって確立されたLMも必要です。