いくつかの論文が ICASSP 2023 に選ばれました Volcano voice はさまざまな実際的な問題を効果的に解決します

最近、信号処理とその応用に関する世界最大かつ最も包括的なトップ学術会議として知られるIEEE主催のICASSP2023がギリシャで開催され、この会議は権威と広範な学術的、産業界への影響力を持ち、AI分野でも高く評価されています。現場では多くの懸念があります。会議では、Huohan Voice に関する多くの論文が受理および出版され、多くの最先端分野の技術革新を網羅し、単語から音への変換や言語の混乱などの実際的な問題を効果的に解決しました。

画像出典:https://2023.ieeeicassp.org/

LiteG2P: 高速、軽量、高精度の音声変換モデル (LiteG2P: 書記素から音素への変換のための高速、軽量、高精度のモデル)

研究の背景:周知のとおり、単語から音声への変換 (G2P) は、単語を対応する発音表現に変換することを目的としており、通常、音声認識 (ASR) や音声合成 (TTS) などの音声タスクで広く使用されていますが、既存の手法はルールに基づいている 従来の手法の予測精度は低いことが多く、専門家の多くの経験の助けも必要ですが、その中でもデータドリブンのディープモデルスキームは精度は高いものの、モデルサイズが大きくなってしまいます。多くの場合大きくなり、計算効率が低くなります。これに関して、Volcano Voice チームは、さまざまな種類のエンドツーエンド デバイスにさらに適用できる、効率的、高速、軽量、高精度の単語から音声への変換モデルを提案しました。

手法分析:データ駆動型と知識駆動型の利点を組み合わせることで、LiteG2P はモデルのサイズを小さく制御しながら高精度を達成できますモデル レベルでは、従来のシーケンス間予測モデル ベースとは異なります。注意メカニズムに基づいていますが、CTC 損失を使用します 音声学を調整することにより、モデルは音素シーケンスを並行して予測できるという利点も得られます。さらに、Volcano Speech チームは、文字の長さをガイドし、文字セットを削減するための言語知識辞書も導入しましたターゲット予測音素の。

LiteG2Pのアーキテクチャ

効果の提示:主流のベースライン モデルと比較して、最終的な LiteG2P モデルは、高精度、並列化、軽量、高速という利点があり、主流のベースライン モデルと同等の精度を持ち、同時に速度も向上しています。 30 倍以上増加し、パラメータの数は 10 分の 1 以上減少;モデル アーキテクチャのセットは、エンドクラウド内の複数の種類のデバイスに同時に展開できます。エンドサイド デバイスは5 ミリ秒以内、クラウド デバイスは 2 ミリ秒以内であると予測されます

音声認識パフォーマンスを向上させるための双方向注意メカニズムに基づく音声テキストのマルチモーダルトレーニング

研究の背景:現在、エンドツーエンド モデルは音響モデル、辞書、言語モデルを統合モデルに組み合わせることでトレーニング プロセスを簡素化していますが、大量のラベル付きトレーニング データに大きく依存しています。純粋なオーディオ データやプレーン テキスト データなどのペアになっていないデータは、ラベル付きデータよりも簡単に取得できます。データの疎性の問題を軽減するために、ペアになっていないデータがトレーニングに参加しようとすることがよくあります。これは、リソースが少ないシナリオで優れたパフォーマンスを発揮するエンドツーエンドの音声認識モデルをトレーニングするのに役立ちます。この論文では、プレーン テキスト データを使用してエンドツーエンド モデル デコーダーのトレーニングに参加することで、デコーダーがより多くの意味情報を学習できるようになり、それによってモデルのパフォーマンスが向上します。このプロセスでは、オーディオ エンコーダの出力に適合するテキスト エンコーダを使用する必要があるため、デコーダのトレーニングがエンコーダに依存するという問題が解決されます。音声とテキストの長さが一貫していないため、この論文では、双方向注意メカニズムに基づいた音声とテキストのマルチモーダルトレーニング方法を使用して、音声とテキストの位置関係を自動的に学習することを提案しています。

方法分析:具体的には、音声エンコーダの出力とテキスト エンコーダの出力が双方向注意によって計算された後、音声エンコーダの出力長がテキストの長さに短縮され、テキストの出力がエンコーダーはオーディオの長さまで延長されます。双方向注意メカニズムの出力は、コサイン距離損失、MLM 損失、および書記素 CTC 損失を使用してトレーニングされます。トレーニング プロセス中に、モデルは音声とテキストの間の位置合わせを学習し、音声エンコーダーとテキスト エンコーダーは学習できます。一貫した性的特徴を持つこと。

Speech-to-Text ベースの双方向注意メカニズムマルチモーダル学習フレームワーク

図に示すように、トレーニングで追加されたモジュールと損失関数は点線のボックス内にあり、デコード中の計算には関与しないため、デコード期間の速度には影響しません。書記素 CTC 損失の役割は、リサンプリングされた音声埋め込みとテキスト埋め込みで書記素を分類することです。MLM 損失の機能は、テキスト エンコーダが意味情報を学習できるようにすることです。コサイン埋め込み損失は、音声埋め込みとテキスト埋め込みの間のギャップを狭めることです。距離。3 つの損失関数はすべて、双方向アテンション メカニズムによって計算された調整された音声埋め込みとテキスト 埋め込みに基づいており、それによって埋め込みが暗黙的に調整されます。音声とテキストのマルチモーダル トレーニングの後、テキスト エンコーダーは音声エンコーダーの出力に近い特徴を生成できます。Volcano Speech チームはプレーン テキスト データを使用してテキスト エンコーダーに送信し、それを 2 回繰り返して音声とテキストの長さの差を減らします。デコーダのトレーニングに基づいて、より多くの意味情報を学習できます。

効果の提示:この論文で提案した音声とテキストのマルチモーダルトレーニング方法の後、Librispeech 公開データセットでパフォーマンスが向上し、トレーニングにラベル付きデータのみを使用した場合、相対的な単語誤り率が 6.15% 増加する可能性があると結論付けられました。より多くのペアになっていないテキスト データを使用すると、相対的な単語エラー率が 9.23% に達する可能性があります。

文字レベルの言語セグメンテーションを使用して、言語間音声認識における言語の混乱を軽減する (トークンレベルの言語ダイアライゼーションによるコードスイッチング音声認識の言語の混乱を軽減する)

研究の背景:通常、言語変換は、言語間の音声認識において音声信号の言語変換が言語の混乱を引き起こす場合に発生します。この点に関して、Volcano Voice チームは、言語情報の融合と分離という2つの観点から言語の混乱の問題を解決し、それによって言語を超えた音声認識のパフォーマンスを向上させています。

方法分析:特に言語情報融合のプロセスについて、チームはシーケンス間ベースの言語セグメンテーションのサブタスクを使用して文字レベルの言語事後確率を生成し、言語事後確率を使用して言語間音声認識モデルを動的に調整します。逆に、デカップリングのプロセスは、異なる言語を正常化するために、対立を通じて異なる言語間の差異を減らすことです。アーキテクチャを実装する 2 つの異なる方法を次の図に示します。

ハイブリッド CTC /注意モデル (a) 言語事後バイアスを使用して言語情報を組み込む、および (b) 敵対的学習を介して言語のもつれを解く 

効果の提示:提案手法をSEAMEデータセット上で検証した。ベースラインモデルと比較して、言語セグメンテーションタスクとチームが提案した言語事後確率バイアス法を組み合わせたマルチタスクトレーニングは、パフォーマンスの向上を達成しました。「同時に、言語情報を融合および分離する2つの方法を比較しました。その結果、言語情報を融合する方が言語を超えた音声認識パフォーマンスをより効果的に向上できることが比較結果からわかりました。」と研究チームは強調しました。

ASRを使用しない自己教師あり学習ベースの流暢性スコアリング手法(自己教師あり学習を使用した ASR フリーの流暢性スコアリング アプローチ)

研究の背景:口頭流暢性、すなわち発音の速さや異常な休止の有無は、対応する習得言語の習熟度を反映する重要な指標の一つです。これまでの判定方法の多くは、ASR システムを使用して音声単位 (単語、音節、音素など) のタイムアライメント情報を取得し、それに基づいて音声流暢さの特性をさらに計算または表現する必要がありましたが、ターゲット言語の ASR システムは、上記の情報を簡単に取得できるとは限りません。また、その過程で避けられない識別エラーが発生します。これに関して、Volcano Speech Team は、ASR システムを必要としない自己教師あり学習に基づく新しい流暢性スコアリング方法を提案しました。つまり、自己教師ありの事前トレーニング済み音声モデル Wav2vec によって生成されたフレームレベルの音声表現を使用します。 2.0 で生成され、クラスタリング アルゴリズムによって生成されます。後続のシーケンス モデルの入力としての のフレーム レベルの擬似ラベルにより、最終的に流暢性スコアの予測が完了します。

提案された ASR フリーの流暢性スコアリング フレームワーク

効果の提示:その後の実践結果は、機械の予測結果と人間の専門家のスコアの間の相関が 0.797 に達し、ASRシステムに依存した以前の方法で達成された 0.759よりも大幅に優れていることを示しています。このスキームは、自己教師あり音声特徴の強力な音素識別能力を利用し、フレーム レベルのクラスタリング擬似ラベル シーケンスを使用して、ASR ベースの音素時間アライメントをシミュレートします。これにより、ASR への依存が除去されるだけでなく、より信頼性の高いスコアリングが実証されます。パフォーマンス。

電話レベルの言語音響の類似性を利用して発話レベルの発音スコアリングを行う

研究の背景:いわゆる自動発音採点システムでは、全体的な発音精度を推定するために、学習者の実際の発音と基準発音との乖離の度合いを測定する必要があることがよくありますが、これまでの手法のほとんどは、音響の合計や結合などの暗黙的な方法でした。埋め込みと音素埋め込みを実現します。この点に関して、Volcano Speech Team は、音素レベルの言語音響類似性を使用した文レベルの発音スコアリング手法を提案しました. 暗黙的な測定方法と比較して、実際の発音は音響埋め込みと音素埋め込みのコサイン類似度によって明示的に記述されます。基準発音からの偏差の方が優れており、これは、最終的な発音精度のスコアリングを完了するために、後続のシーケンス モデルに埋め込まれた元の 2 つのシーケンスとともに追加の特徴として使用されます。

発音スコアリング ネットワークの階層アーキテクチャ。add_phone、concat_phone、または私たちが提案する方法を使用して電話レベルの特徴を計算できます。

効果の提示:この明示的な測定方法は、内部および公開データセットの合計と接続という以前の暗黙的な測定方法よりも大幅に優れていることが証明されています。つまり、音素レベルの GOP に基づく事前トレーニングがすべての測定方法に含まれています。どちらも大幅に改善されており、言語と音響の類似性の表示測定および GOP 事前トレーニングと組み合わせたスコアリング システムが最高のスコアリング パフォーマンスを達成し、機械の予測結果と人間の専門家のスコアとの相関は 0.858 に達し、大幅に向上しました。論文で報告されている複数のベースライン システムよりも高い。

内部言語モデル推定に基づくドメイン適応のための適応言語モデルの融合

研究の背景:内部言語モデルの融合は、一般ドメインまたは特定のターゲット ドメインに十分なテキストがある限り、エンドツーエンドの音声認識パフォーマンスを大幅に向上させることができます。しかし、一般分野の商用音声認識システムを導入する場合、データアクセス制限によりユーザーは自分に関係する特定の対象分野のテキストデータしか持たない場合が多く、内部言語融合による自動音声認識システムでは性能向上しか得られません。ユーザー固有のフィールドでは問題ありませんが、一般的なフィールドでは損傷を引き起こし、パフォーマンスが大幅に低下します。 上記の理由に基づいて、本論文は、ユーザが特定の対象分野のテキストデータしか持っていないという前提を提案する。これにより、従来の内部言語モデル推定融合手法と比較して、特定の分野での取得パフォーマンスの大幅な向上を達成できるが、一般的な分野では依然として優れたパフォーマンスを達成しています 適応型言語モデル融合手法。

メソッド分析:このメソッドは内部言語モデルの推定に基づいています。前提条件として、音声認識システムがオンラインで提供される場合、ユーザー アクセスを提供するサブシステムにはエンドツーエンドの音声認識システムと内部言語モデルが含まれます。ユーザーは自分の特定ドメインの言語モデルに注意を払うだけで、特定ドメインのパフォーマンスが大幅に向上し、一般ドメインのパフォーマンスがほとんど低下しないという結果を得ることができます。具体的には、認識システムが言語モデル融合を実行する際に、内部言語モデルとユーザー固有言語モデルの各サブワードのスコアを比較し、そのサイズに応じて内部言語モデル融合を実行するかどうかを決定します。いわゆるアダプティブフュージョン機能。

効果発表: Volcano Speech Teamは手法の有効性を検証するため、汎用領域認識システムとして10万時間学習した中国語音声認識システムを利用し、医療検索と小説検索を特定領域として定義し結果、一般領域では相対的な単語誤り率がわずか 2.4% しか増加しないのに対し、相対的な単語誤り率は 18.6% 減少しました

長年にわたり、Volcano 音声チームは、ByteDance の社内ビジネスラインに高品質の音声 AI 技術能力とフルスタックの音声製品ソリューションを提供し、volcano エンジンを通じて外部サービスを提供してきました。2017 年の設立以来、チームは業界をリードする AI インテリジェント音声テクノロジーの研究開発に注力し、より大きなユーザー価値を達成するために AI とビジネス シナリオの効率的な組み合わせを常に模索してきました。

おすすめ

転載: blog.csdn.net/weixin_48827824/article/details/131083337