このレビューの内容は次の文献から引用しています。
[1] Xu C、Ye R、Dong Q、他。直接音声からテキストへの翻訳の最近の進歩[J]。 arXiv プレプリント arXiv:2306.11646、2023。
目次
1 はじめに
用語集:
エラーの蓄積: は、転写または翻訳の連続するステップで、前のステップでのエラーが後続のステップで蓄積され、最終結果の品質が徐々に低下することを意味します。 . 衰退現象。このエラーの蓄積は、音声からテキストへの (自動音声認識、ASR) システムとテキストからテキストへの (機械翻訳またはテキスト転写) システムの間の複数ステップのプロセスでよく発生します。これらのシステムでは、音声信号がまずテキストに転写され、次にターゲット言語に翻訳されるか、その他の方法で処理されます。転記ステップ中にエラーが発生した場合、これらのエラーは後続のステップに引き継がれ、最終的な翻訳またはテキスト転記の品質に影響を与えます。
自己回帰:E2E ST (エンドツーエンド音声翻訳) モデルにおける「自己回帰」とは、モデルが翻訳されたテキストの各単語を 1 つずつ生成すること、またはサブワードでは、各世代は前のタイム ステップで生成された内容に依存します。これは段階的なシリアル生成プロセスです。典型的な自己回帰モデルには、再帰型ニューラル ネットワーク (RNN)、長短期記憶ネットワーク (LSTM)、およびトランスフォーマー (Transformer) が含まれます。
-
初期の音声翻訳 [音声からテキストへの翻訳 (ST)] ソリューションは、カスケード システムによる処理に複数のサブタスクを使用することでした。
-
たとえば、音声はまず ASR (自動音声認識) システムによってテキストに変換され、次にテキストは MT (機械翻訳) システムを使用して別の言語に翻訳されます。
-
このようなカスケード システムの場合、研究の方向性は主に誤差の蓄積の問題を解決することです。
-
-
エンドツーエンド音声翻訳 (E2E ST) には次の利点があります。
-
エラーの蓄積を軽減できる
-
レイテンシを短縮できる
-
コンテキストに応じたモデリングを強化する
-
書かれていない言語の場合
-
-
基本的なモデリング:
-
ST のコーパスには通常、音声 s、エスケープテキスト x、翻訳結果 y が含まれます。
-
基本的な E2E ST モデルのフレームワークは、エンコーダ/デコーダ アーキテクチャに基づいています。
-
ただし、E2E ST モデルのトレーニングは簡単ではなく、その効果はカスケード システムの結果に近いものであり、最高のパフォーマンスを発揮するテクノロジではありません。
-
-
現在、E2E ST モデルの研究の方向性は主に次のとおりです。
-
モデリングの負担:
-
クロスモーダル (音声からテキスト) とクロス言語 (ソース言語からターゲット言語) の問題を同時に扱う必要があり、モデルのモデリングが非常に複雑になります。
-
収束の困難とパフォーマンスの低下
-
-
データ不足:
-
ASR と MT のコーパスは多数あり、その中には非常に大きいものもあります。
-
ただし、ST コーパスは注釈を付けるのがより難しいため、ST データはほとんどありません。
-
-
アプリケーションの問題:
-
リアルタイム翻訳、長文音声の分割など、実際のアプリケーションの問題を考慮する必要があります。
-
-
-
上記の問題と対応する解決策に基づいて、次の分類図が得られます。
以下の導入部では、これら 3 つの側面について説明します。
セクション 2 では、既存の文献におけるモデリングの負担の課題を軽減する方法について説明します。モデリング手法は、トランスフォーマーとそのバリアント、マルチタスク フレームワーク、および非自己回帰モデリングの 3 つのカテゴリに分類できます。
セクション 3 では、データの増強、事前トレーニング、知識の蒸留、多言語トレーニングなど、データ不足の問題に対処するアプローチをまとめています。
セクション 4 では実際の応用問題を簡単に紹介します
セクション 5 では、将来の ST 研究のいくつかの有望な方向性を予測します。
2 モデリングの負担への取り組み
いただいたご質問に対し、以下の3つの側面からご紹介させていただきます。
2.1 で導入: 音声信号などの長いシーケンス入力の場合、大容量のエンドツーエンド モデル (通常は Transformer とそのバリアント アーキテクチャ) を使用します。
2.2 で導入: モデリングの負担の問題については、通常、マルチタスク学習フレームワークを使用して、元の Transformer ベースのモデルを変更します。
2.3 で導入: デコード効率の問題については、非自己回帰モデルを使用してデコード速度を向上させます。
2.1 トランスとそのバリアント
通常、ST タスクは Seq2Seq などのエンコーダ デコーダ アーキテクチャを使用したモデルです。モデルの概略図は以下の通りです。 Transformer は、このタイプのモデルとは一線を画すものです。ここでは、Transformer モデルのいくつかのバリエーションを示します
スピーチトランスフォーマー
-
text-to-text Transformer に基づく
-
主な改善点は、音響特徴がセルフアテンション エンコーダに入力される前に、まず畳み込み層 (通常はストライド 2 の 2 つの層、長さを 4 倍圧縮) によって圧縮され、その後に正規化層が続くことです。
コンフォーマー
-
主な改善点は、各エンコーダ ブロックにマルチヘッド セルフ アテンション モジュールが組み込まれていることです。 畳み込みモジュール が a> と フィードフォワード層
-
畳み込みモジュールには、2 つのマカロンネット スタイルのフィードフォワード層と残差接続に囲まれたアテンション コンポーネントと畳み込みコンポーネントが含まれています。
SSLトランスフォーマー
-
これは、自己教師あり学習 (SSL) と組み合わせた音声表現モデルです。
-
SSL は音声特徴を抽出するタスクに正常に適用されました
-
SSL-Transformer は主に、元の音声波形を自己教師あり学習モデルに入力し、複数の畳み込み層とコーディング層を通じて処理して音声特徴を抽出します。
-
SSL-Transformer モデルでは、自己教師あり学習モデルを独立したエンコーダーまたは音声特徴抽出器としてデコーダーに統合し、Transformer モデル全体に接続できます。
2.2 マルチタスクフレームワーク
モデルの負担の問題に対応するため、マルチタスクの基本的な考え方は、ターゲット タスクの完了を支援するためにいくつかの補助ツールを使用することです。 ASRやMTなど。タスクモジュールと補助モジュールの一部のパラメータを共有できるため、補助タスクの実現可能性につながります。現在、次の 3 種類のマルチタスク フレームワークがあります。
デカップリング デコーダー (デカップリング デコーダー)
追加のデコーダーは、エンドツーエンドの方法でモデルをトレーニングしながら、モデルがテキストの転写を学習するようにガイドするために使用されます。主なアイデアは 2 つあり、1 つは 2 パス デコーダを使用するなど、生成されたテキスト トランスクリプションを通じて翻訳をより効果的に促進する方法であり、もう 1 つはテキスト トランスクリプションと翻訳を同時に生成する (デュアル デコーダ) というものです。
-
2 パス デコーダー: まず、音響特徴をこのデコーダーに渡し、次にトランスクリプションの結果とデコーダーの結果を組み合わせて翻訳作業を行います。ただし、順次生成されるため、低遅延という固有の利点が失われます。したがって、一部の人々は、最初のセグメントをデコードするために非自己回帰手法を使用します。
-
デュアル デコーダ:インタラクティブ デコーダは 2 つのデコーダを使用してトランスクリプトと翻訳を同時に生成します。同時に、2 つのデコーダー間で情報を交換するためにクロスアテンション モジュールが追加で使用されます。 wait-k ポリシーは、最初に転写されたテキストのトークンを予測することにより、翻訳トークンのデコードに役立つ情報を提供します。
分離されたエンコーダ
分離されたデコーダの場合、複数の推論が発生すると、設計と遅延の問題が発生する可能性があります。より良い解決策は、分離されたエンコーダを介して生の音声入力のセマンティクスを同時に認識し、理解することです。そこで、下図のような仕組みを採用しており、低レベル音声エンコーダで音声入力から音響情報をエンコードし、意味エンコーダで翻訳や復号に必要な意味表現をさらに学習するという2つのエンコーダを用意しています。
-
エンコードの各段階は、転写された情報で監視できます。
-
文字起こしでは音声の調整も行われるため、エンコードの負担が軽減されます。
2 ストリーム エンコーダ
ASR データはコンポーネントの強化に使用できますが、MT データも使用できるのでしょうか?トレーニング プロセス中、それぞれ独自のエンコーダーと共有エンコーダーを使用して、音声入力とテキスト入力を同時に受け取ることができます。この構造は、音声翻訳 (ST) や機械翻訳 (MT) の負の対数尤度 (NLL) 損失などのマルチタスク トレーニング損失を使用して最適化されることがよくあります。利点は、MT エンコーダと共有することで、より適切な意味表現を学習して翻訳パフォーマンスを向上できることです。
推論プロセスでは、音声データが入力され、音声エンコーダ、共有エンコーダ、デコーダを経て、最終的に翻訳テキストが生成されます。
-
音声エンコーダ:音声入力のみの音響特徴を抽出できる機能が必要です。 Wav2vec2 などの事前トレーニング済み音声モデルを音声エンコーダとして使用して、ST パフォーマンスを向上させることができます
-
テキスト エンコーダ:テキスト エンコーダは、テキスト埋め込みレイヤーまたはテキスト Transformer エンコーダーの複数のレイヤーにすることができます。同時に、元の文字起こしの代わりに音声音素 (音素) をテキスト入力として使用することもでき、これにより 2 つの入力間のモーダルの違いを減らすことができます。
-
インタラクション:音声エンコーダとテキスト エンコーダのインタラクションにはさまざまなバリエーションがあります。
-
音声とテキストの表現の違いを短くするために、対照的な学習方法を使用する人もいます。
-
キメラモデルは、音声とテキスト表現の長さを一致させるために提案されています。
-
表現と長さの違いを同時に考慮して、共有エンコーダの後にクロスアテンション正則化モジュールを追加する方法もあります. 正則化モジュールは、まずセルフアテンションまたはクロスアテンションを通じてテキストまたは音声エンコーダからデータを抽出します.同じ長さにしてから、再構成されたシーケンス間の L2 距離を最適化します。 (これで良い気がする)
-
2.3 非自己回帰モデリング
エンドツーエンドモデルは、同レベルのカスケードシステムと比較して計算遅延を大幅に削減しますが、この利点は自己回帰復号の場合にのみ有効であり、この技術の研究には 2 つのルートがあります。
-
非自己回帰音声翻訳モデルは、条件付きマスキング言語モデルやスコアリング技術など、自動音声認識 (ASR) および機械翻訳 (MT) タスクの方法を参照して開発されています。
-
速度を向上させるための予測に純粋な CTC (Connectionist Temporalクラシフィケーション) に依存する、より効率的なアーキテクチャを検討してください。 CTC は、入力シーケンスを出力シーケンスにマッピングするモデルをトレーニングするために使用できるシーケンス ラベリング タスク用の損失関数です。
3 データ不足への取り組み
MT や ASR と比較すると、ST にはトレーニング用のデータがほとんどありません。合計 2 つの既存のアイデアがあります。
-
拡張データセットとデータ拡張: 3.1 で導入
-
MT または ASR データから有用な情報をマイニングする:
-
事前トレーニング: 3.2 はじめに
-
知識の蒸留: 3.3 はじめに
-
3.1 データの拡張
これは、トレーニング データが非常にまばらな場合の最も簡単なアプローチです。
STデータの展開
-
高品質の MT を直接使用して大量の ASR データを翻訳します。この方法は、「擬似ラベル付け」または「シーケンスレベルの知識蒸留 (SeqKD)」とも呼ばれます。
-
双方向 SeqKD もあります。これには、順方向 SeqKD と逆方向 SeqKD が含まれます。これは、バイリンガルのエンドツーエンド音声翻訳モデル (バイリンガル E2E-ST モデル) に非常に役立ちます。
-
同時に、逆の拡張、つまり音声データの拡張も可能です。テキスト読み上げ (TTS) モデルを使用して、機械翻訳システムのソース言語テキストを音声に拡張します。
音声拡張
-
SpecAugment:ワーピング機能、マスキング チャネル ブロック、タイム ステップなど、フィルタ バンクに作用する音声入力係数
-
SkinAugment:自動エンコード話者変換を使用して、元の話者の声を別の話者の声に変換します。モデルがさまざまな話者の声に適応できるように支援できます
-
データの多様性:さまざまな分割方法や再結合方法により、元の音声翻訳データの有用性を高めることができます
3.2 事前トレーニング
事前トレーニングは、AI 分野の多くのタスクで非常に良い結果をもたらしました。現在最も先進的な E2E ST モデルには、基本的に事前トレーニングが含まれます。こちらも2つのカテゴリーに分かれます
-
個別の事前トレーニング:個別の事前トレーニングとは、いくつかのモデル パラメーターを事前トレーニングすること、またはさまざまなタスクを通じてさまざまなサブモジュールを事前トレーニングすることを指します。以前の研究では、意味理解におけるエンコーダの機能を強化するための、より優れた事前トレーニング方法が検討されました。たとえば、カリキュラム学習方法、マスク音響モデリング (MAM) の自己教師あり方法、MAM ベースの FAT などです。
-
ジョイント事前トレーニング:ジョイント事前トレーニングとは、モデル (エンコーダーとデコーダーのすべてのモジュールを含む) が全体として事前トレーニングに参加することを意味します。共同事前トレーニングでは通常、マルチタスク学習フレームワーク (つまり、2.2 で導入されたもの) が使用されます。マルチタスクの事前トレーニングで統合モデルを構築し、特定のタスクでそれを微調整することで、データ アノテーションのコストを削減しながら、マルチタスクの音声およびテキスト関連タスクのパフォーマンスを向上させることができます。
3.3 知識の蒸留
知識蒸留は、1 つのニューラル ネットワーク (通常は大規模で複雑なモデル) がその知識を別のニューラル ネットワーク (通常は小規模で単純なモデル) に教える、ディープ ニューラル ネットワークをトレーニングするための手法です。このプロセスの目的は、大規模モデルの複雑さとパフォーマンスを小規模モデルに移行し、小規模モデルが、より低い計算量とメモリ要件でありながら、大規模モデルと同様のパフォーマンスを達成できるようにすることです。
知識蒸留 (KD) は、モデルの圧縮によく使用されます。これは、学生モデルが教師モデルと同じパフォーマンスを達成することを期待して、通常は学生モデルの学習をガイドするためによりパフォーマンスの高い、より大きな教師モデルの出力を使用します。データが限られている中で、ST のパフォーマンスを MT 教師のパフォーマンスに近づけるにはどうすればよいでしょうか?以下のようにいくつかの方法があります
-
ST モデルと MT モデルをそれぞれ使用して翻訳マーカーを予測し、MT モデルの予測確率を教師として使用して ST 出力をガイドします
-
2 ストリーム エンコーダのハイブリッド シーケンスから 2 ストリーム エンコーダ フレームワークを使用します (2.2 で言及されています。これは、音声とテキストの表現の橋渡しをするためのものです。 違い a>)、音声からテキストへの翻訳モジュールの知識を抽出します。このアプローチは、音声からテキストへの翻訳モジュールのパフォーマンスを向上させ、音声入力をよりよく理解して変換できるようにするのに役立ちます。
3.4 多言語トレーニング
多言語翻訳は別の研究カテゴリです。 MT と同様に、デコーダに言語インジケータ (<2de>、<2fr> など) を追加することは、二言語 ST から多言語 ST に進化する最も直接的かつ効率的な方法です。実際、各翻訳方向のデータが限られている場合、多対多の多言語 ST モデルをトレーニングする方が、二言語 ST モデルを単独でトレーニングするよりも優れています。これは、多言語モデルの方が言語間の発音の類似性をより多く捉えることができるためです。
多言語 ST に関する現在の研究は主に次のことに焦点を当てています。
-
事前トレーニングに関しては、統合された多言語の音声とテキストの事前トレーニング モデルを構築する方法や、さまざまな効果的な事前トレーニング タスクを設計する方法など
-
効率的な微調整
-
すべてのパラメーターを微調整するよりも、レイヤー ノルム レイヤーとアテンション レイヤーのパラメーターのみを微調整する方が効果的です。これは、これらの特定のレイヤーのみを微調整することでシステムのパフォーマンスを向上できることを意味します。
-
事前トレーニングされた ASR エンコーダーと mBART デコーダーをフリーズし、言語固有のアダプター モジュールのみを微調整して、1 対多の音声翻訳タスクを完了します。これは、パラメータ規模がわずか数千万の多言語システムに基づいて行われます。このアプローチは、多言語音声翻訳システムのパフォーマンスを向上させるのにも効果的であることが証明されています。
-
4 アプリケーションの問題への取り組み
現在の研究はまだ手動セグメンテーションとノイズのない環境でのみ行われていますが、実際のアプリケーションの要件についても議論する必要があります。
リアルタイム
品質と遅延を比較検討することで、リアルタイム翻訳を実現できます。主な目標は、いくつかのサウンド シーケンスを待つか、最初にいくつかのトークンを翻訳するかを決定することです。具体的なテクノロジーには次のようなものがあります。
-
音声セグメンター: CTC 標準に基づいて、リアルタイムで音声をセグメント化します。
-
Continuous Integrate-and-Fire モジュール (Continuous Integrate-and-Fire モジュール): 適応戦略を実行し、各トリガー ステップで WRITE の決定を行うために使用されます。
-
クロス アテンション拡張トランスデューサー: RNN-T から拡張され、考えられるすべての読み取りおよび書き込みアクション パスを考慮することで、デコード戦略と翻訳品質を共同で最適化します。
セグメンテーション
ST モデルは非常に長い音声シーケンス (映画など) を処理できないため、短いスキットに分割する必要があります。具体的なテクノロジーには次のようなものがあります。
-
監視付きハイブリッド オーディオ セグメンテーション (SHAS): Wav2vec2 を使用し、手動セグメンテーション情報によって監視されたセグメンテーション位置を予測するために分類器をトレーニングします。
名前付きエンティティ
つまり、名前付きエンティティの翻訳です。これは、現実のシナリオでは重要な要件です。具体的な研究には次のようなものがあります。
-
名前変換の失敗の鍵は相手の国籍にあることが判明したため、異なる発音に対する堅牢性を向上させる多言語モデルが提案されました。
-
ST モデルの変換と NE 認識を同時に行う方法として、NE ラベルとトークンを生成するインライン方式と、NE ラベルとトークンを予測するパラレル方式 (並列) の 2 つの方式があります。
コード切り替え
異なる言語(通常は2つ以上の言語)を混合する音声翻訳タスクを指します。たとえば、話者が会話で英語とフランス語の両方を使用する場合、E2E ST モデルは、この言語の混合を処理し、単一のターゲット言語 (英語やフランス語など) のテキストまたは音声出力に変換できる必要があります。 )。
-
私たちは現在、CS タスクのコーパスを構築し、このタスクにおけるカスケード システムとエンドツーエンド構造の間のパフォーマンスの違いを調査しています。
-
統一された言語に依存しない E2E ST モデル (Language Agnostic E2E ST モデル (LAST)) も提案されています。
ジェンダーバイアス
emmm は、翻訳におけるジェンダーバイアスを解決し、音声認識および翻訳システムがジェンダー要因による不平等や偏見を導入しないようにすることを目的としています。
5 未来
将来の研究のためのいくつかのトピックについて話し合う
LLM(大規模言語モデル)
LLM には ChatGPT や Bloom などがあり、いずれも非常に強力な機能を持っているため、LLM の強力な生成機能を ST のタスクに統合する方法や、音声データを LLM のトレーニングに組み込む方法を検討する価値があります。 。
-
最初のステップとして、テキストの表現と同等になるように音声の表現を最適化できます。
-
擬似言語としての擬似言語音声離散表現は良い方向である。
-
-
さらに、大規模な音響認識 LLM を事前トレーニングすることも有望な方向性です。
マルチモダリティ
人工知能によって生成されるテキスト、画像、音声、ビデオなどのマルチモーダル情報の急増により、ST 分野ではより複雑な人間とコンピュータのインタラクション ( HCI、ヒューマン コンピューター インタラクションに関する研究) シナリオ (音声対音声翻訳、ビデオ翻訳など)。
マルチモーダル データの爆発的な増加により、マルチモーダル データに対するインコンテキスト学習 (ICL) の実装も行われていますまた、異なるモーダルデータ間の相関関係をよりよく理解して利用し、それによってより正確で包括的なマルチモーダル解析と応用を実現することも、有望な研究の方向性となっています。
マルチモーダル事前トレーニングも多くの分野で効果的であることが証明されています。
マルチモダリティ間の情報の相互作用と相関も調査する必要があります。たとえば、動画内のキャラクターの声、動画内のキャラクターの画像フレームや韻律環境などです。たとえば、口調、高さ、音量、話す速度、間などは、言語の感情や口調などの関係を伝えることができます。