INTERSPEECH 2023 論文 | 自己教師あり学習表現に基づく永続的なアクセント記憶によるアクセント認識

エッセイのテーマ:

永続的なアクセント記憶によるアクセント認識に基づく自己教師あり学習表現

著者リスト:

Li Rui、Xie Zhiwei、Xu Haihua、Peng Yizhou、Liu Hexin、Huang Hao、Cheng Siong

研究の背景

アクセント認識 (AR) は重要かつ困難なタスクです。なぜなら、アクセントには話者の音声特徴だけでなく、話者認識 [1] や音声認識 [2] にとって重要な地域情報も含まれるからです。ただし、大規模なアクセント ラベリング データは入手が難しいため、リソースが少ないタスクです。したがって、理想的な AR システムを実現するには、データとモデルのモデリング効率の両方を最大限に活用する必要があります。

この記事のスキーム

本稿では 2 つの観点から AR の性能向上を目指します。まず、データ不足の問題を軽減するために、事前学習モデル WavLM [3] から抽出した自己教師あり学習表現 (SSLR) を使用して AR モデルを構築します。SSLR のおかげで、従来の音響シグネチャと比較してパフォーマンスが大幅に向上します。第二に、AR モデルにバイアスをかけるためのコンテキスト知識として永続的なアクセント記憶 (PAM) を提案します。AR モデルのエンコーダーによってすべてのトレーニング データから抽出されたアクセント埋め込みがクラスター化されて、アクセント コードブック (PAM) が形成されます。さらに、PAM の最適な使用を研究するために複数の注意メカニズムを提案します。最も関連性の高いアクセント埋め込みを選択することで最高のパフォーマンスが達成されることがわかります。

1. データ不足の問題を軽減するために、事前トレーニングされたモデルから抽出された自己教師あり学習表現 (SSLR) を使用して AR モデルを構築します。

図 1 マルチタスク バックボーン モデル

表 1 テスト セットで WavLM を使用して抽出された SSLR の精度

まず、従来の音響特徴 Fbank の代わりに WavLM によって抽出された SSLR を使用してモデルをトレーニングします。表 1 のシステム 1 ~ 5 から、WavLM を使用して SSLR を抽出すると、従来の音響特徴の Fbank を使用して最初からトレーニングされたシステムと比較して、AR のパフォーマンスが大幅に向上することがわかります。次に、上位中間のエンコーダーで抽出された SSLR を使用してトレーニングされたモデルは、下位レイヤーのエンコーダーの SSLR よりも優れたパフォーマンスを発揮し、レイヤー 20 で最高の結果が得られます。最後に、さまざまなアクセントに関する表 1 の精度によれば、さまざまなレイヤ エンコーダによって抽出された SSLR が、さまざまなアクセントに対してさまざまな有効な情報を提供することがわかります。次に、すべてのアクセントの精度を向上させるために、さまざまなアクセントに対して SSLR のさまざまな層によって提供される効果的な情報をどのように組み合わせるかという疑問が生じます。

2. AR モデルにバイアスをかけるためのコンテキスト知識として Persistent Accent Memory (PAM) を提案します。

具体的には、PAM は、WavLM SSLR でトレーニングされた AR モデルのエンコーダーからのトレーニング セット データの出力からクラスター化された 256 個のエンベディングを含むコードブックです。トレーニング セットには 8 つのアクセントが含まれており、各アクセントに対応するオーディオ エンベディングを K 平均法を使用して 32 個のエンベディングに集約し、最終的に 256 個のエンベディング (PAM と呼ばれます) を取得します。このうち「永続化」とは、これら 256 個のエンベディングがトレーニング中に更新されないことを意味します。

3. アクセントのコンテキスト情報を活用するために、さまざまな注意メカニズムを実験しました。

図 2 さまざまな注意メカニズム

(1) フレーム レベルのクロス アテンション フュージョン: エンコーダ出力がクエリとして使用され、PAM がキーと値として使用され、アテンション メカニズムがフレーム レベルで動作します。

(2) 談話レベルのクロスアテンション融合: PAM も談話レベルにあるため、エンコーダの出力はプーリングによって談話レベルになります。これにより、クエリ、キー、値などのすべてのアテンション コンポーネントが同じ発話レベルにあることが認識され、アテンションが明確なセマンティクスを持つようになります。

(3) PAM セルフ アテンション フュージョンのスプライシング: エンコーダの出力と PAM を時間次元でスプライスし、シーケンス全体に対してセルフ アテンション オペレーションを実行します。その動機は、アクセント コンテキストによってエンコーダーの出力にバイアスをかけることで AR のパフォーマンスを向上させることです。

4. アクセントコンテキスト情報をより有効に活用するために、N-best 永続アクセントメモリ選択方法を提案します。

さまざまなアテンション メカニズムを使用する場合、その制限は、PAM 内のすべての埋め込みが考慮されることであり、過剰な冗長性が生じます。これは、モデルがトレーニング中に現在のアクセントと同じまたは類似した埋め込み情報のみを考慮する必要があると考えられるためです。そこで、N-best 永続アクセントメモリ選択法を提案します。N は、PAM 内の埋め込みとエンコーダー出力の間の類似性スコアに基づいて PAM から選択された埋め込みの数を示します。メソッドのアーキテクチャを図 3 に示します。

図 3 N-best 永続アクセント メモリの選択方法

実験結果

表 2 はすべての注意ベースの手法の実験結果を示しています. 提案手法の有効性と一般性を検証するために、「Oracle」は各アクセントに対応する最もパフォーマンスの高いアクセント認識モデルから抽出された埋め込みから PAM が構築されていることを表し、他の 2 つはそれぞれ「layer-24」と「layers:1-24」として示される最後の層の出力と全体の加重和出力に基づいています。すべてのメソッドがベースラインよりも向上しており、N-best 選択メソッドが最高のパフォーマンスを達成していることがわかります。

表 2 PAM を使用したテスト セットの精度

表 3 N-best PAM 選択方法における N の役割

さらに、表 3 に示すように、N が最適な選択方法に及ぼすさまざまな N の影響を調査します。N が 64 に等しい場合、モデルは最高の精度を示します。ただし、N が大きいほど必ずしもパフォーマンスが向上するとは限りませんが、計算の複雑さも増加します。

結論は

この研究では、自己教師あり学習表現 (SSLR) を提案する永続アクセント記憶 (PAM) 手法に組み込んで AR を改善します。アクセント認識タスクにおけるデータ不足の問題に対処するために、事前トレーニングされた WavLM モデルから抽出された SSLR を使用します。SSLR を使用すると、従来の音響機能と比較して大幅なパフォーマンスの向上が見られ、アクセント認識における SSLR の有効性が実証されています。さらに、アクセント認識を改善するために、異なる注意メカニズムを備えた PAM アプローチを提案します。公開アクセント ベンチマーク データセットに対する提案手法の有効性を実証し、永続的なアクセント メモリから N 個の最も関連性の高い埋め込みを選択する最高のパフォーマンスのシステムにより、アクセント認識がさらに向上します。

参考文献

[1] S. Shon、H. Tang、および J. Glass、「テキストに依存しない話者認識とエンドツーエンド モデルの分析のためのフレームレベルの話者埋め込み」、Proc. SLT 2018。IEEE、2018、1007 ~ 1013 ページ。

[2] X. Gong、Y. Lu、Z. Zhou、および Y. Qian、「エンドツーエンドの多アクセント音声認識のためのレイヤーワイズ高速適応」、Proc. インタースピーチ 2021、2021、1274–1278 ページ。

[3] S. Chen、C. Wang、Z. Chen、Y. Wu、S. Liu、Z. Chen、J. Li、N.Kanda、T. Yoshioka、X. Xiao 他、「Wavlm: Large-scale selfsupervised pre-training for full stack speech processing」、IEEE Journal of Selected Topics in Signal Processing、vol. 16、いいえ。6、1505–1518ページ、2022年。

おすすめ

転載: blog.csdn.net/weixin_48827824/article/details/131393667