NPU-ASLP研究室から11本の論文がスピーチフラッグシップカンファレンスInterspeech2023に採択されました

音声関連研究分野の主力国際会議として、INTERSPEECH2023が8月20日から24日までアイルランドのダブリンで開催されます。NPU の音声音声および言語処理研究グループ (ASLP@NPU) は、この会議でパートナーと共同で 11 件の論文を発表し、音声認識、音声合成と変換、音声翻訳、スピーカーなどのインテリジェント音声処理の分野における多くの研究方向をカバーします。認識待ち。この論文の協力企業には、Tencent、Netease、Huawei、ByteDance、Mobvoi、Didi Chuxing、Alibaba などが含まれます。以下は、このカンファレンスで発表された論文の関連情報と、共有できる元の論文へのリンクです。

#1 DualVC: モデル内知識蒸留とハイブリッド予測コーディングを使用したデュアルモード音声変換 

著者リスト:Ning Ziqian、Jiang Yuepeng、Zhu Pengcheng、Yao Jixun、Wang Shuai、Xie Lei、Bi Mengxiao

パートナー: NetEase

要約: 音声変換テクノロジーの普及に伴い、ストリーミング変換機能を備えたモデルを必要とするリアルタイム アプリケーションがますます増えています。一般的な (非ストリーミング) 音声変換とは異なり、ストリーミング音声変換ではオーディオのコンテキスト機能を完全に活用できません。将来の情報が欠如しているため、ストリーミング音声変換は、明瞭度、話者の類似性、音質の低下という大きな課題に直面しています。この課題に対処するために、共同でトレーニングされた独立したネットワーク パラメーターを使用してストリーミング モードと非ストリーミング モードの両方をサポートするデュアルモーダル音声変換方法である DualVC を提案します。さらに、モデル内知識蒸留とハイブリッド予測コーディング (HPC) を導入して、ストリーミング変換のパフォーマンスを向上させます。さらに、データ拡張を組み込んでノイズに強い自己回帰デコーダーをトレーニングし、長い音声変換におけるモデルのパフォーマンスを向上させます。実験結果は、提案されたモデルが、わずか 252.8 ミリ秒の遅延でフル コンテキスト機能を利用する非ストリーミング システムと同等のパフォーマンスを維持しながら、ストリーミング音声変換シナリオでベースライン モデルを上回るパフォーマンスを示していることを示しています。

  論文URL: https://arxiv.org/abs/2305.12425

#2 PromptStyle: 自然言語記述によるテキスト読み上げのための制御可能なスタイル転送 

著者リスト:Liu Guanghou、Zhang Yongmao、Lei Yi、Chen Yunlin、Wang Rui、Li Zhifei、Xie Lei

協力部隊:聞きに行く

要旨: 近年、音声合成におけるスタイル転送が注目を集めています。スタイル制御は、通常、スタイル注釈が付けられた表現力豊かな音声データに依存しますが、実際のアプリケーションでは、ユーザーはターゲット スタイルの音声を参照として持たず、目的のスタイルのテキスト記述を通じてスタイル転送を実行したい場合があります。テキストガイドによるコンテンツ生成技術は、最近大きな注目を集めています。この論文では、自然言語記述を使用した制御可能なスタイル転送の可能性を検討し、テキストベースの説明ガイドによる話者間スタイル転送システムである PromptStyle を提案します。PromptStyle は VITS の構造に基づいて構築されており、スタイル転送を実現するクロスモーダル スタイル エンコーダーを導入しています。クロスモーダル スタイルのエンコーダーは、音響特徴とセマンティクスの共有スペースを構築します。実験の結果、PromptStyle は高い発音の安定性と話者の類似性を維持しながら、テキストの説明に基づいたスタイルの転送を実現できることがわかりました。

  例については、https: //PromptStyle.github.io/PromptStyleを参照してください。

  論文URL:https://arxiv.org/abs/2305.19522

#3 VISinger 2: デジタル信号処理シンセサイザーによって強化された高忠実度のエンドツーエンドの歌声合成 

著者リスト:張永茂、薛鶴陽、李漢昭、謝磊、郭廷偉、張瑞雄、龐才霞

パートナー:滴滴出行

要約: エンドツーエンドの歌声合成 (SVS) モデル VISinger は、一般的な 2 段階の歌声合成システムよりも少ないパラメーターで優れたパフォーマンスを実現します。ただし、VISinger にはいくつかの問題があります: (1) テキストからフェーズへの無意味なマッピングをモデル化するテキストからフェーズへの問題、(2) スペクトル ブレーク問題、つまり有声セグメントの倍音成分が突然変化し、 (3) 低いサンプリングレート VISinger が使用する 24KHz サンプリングレートは、高忠実度 (44.1KHz 以上) の歌声生成のニーズを満たすことができません。これらの問題を解決するために、デジタル信号処理 (DSP) 手法と VISinger を組み合わせ、VISinger 2 モデルを提案しました。具体的には、微分可能デジタル信号処理 (DDSP) の最近の進歩に触発され、DSP シンセサイザーを VISinger のデコーダーに組み込んで、前述の問題に対処しました。DSP シンセサイザーには、ハーモニック シンセサイザーとノイズ シンセサイザーが含まれており、VISinger の中間表現 z に従ってそれぞれ周期信号と非周期信号を生成します。DSP シンセサイザーの監視下で、事後エンコーダーは位相情報のない中間表現 z を抽出し、前のエンコーダーがテキストから位相へのマッピングを構築するのを回避します。スペクトルの断片化の問題を回避するために、HiFi-GAN は DSP シンセサイザーによって生成された波形を補助入力として受け入れ、忠実度の高い歌声を生成します。さらに、改良された Wave デコーダーの恩恵により、VISinger 2 は 44.1kHz で歌声を合成できるため、より豊かな表現力とより良いオーディオ品質が得られます。OpenCpop 歌唱コーパスの実験では、VISinger 2 が主観的指標と客観的指標の両方で VISinger、CpopSing、RefineSinger よりも優れていることが示されています。

  ソースコードを参照してください: https://github.com/zhangyongmao/VISinger2

  論文URL:https://arxiv.org/abs/2211.02903

#4  StyleS2ST: 直接音声対音声翻訳のためのゼロショット スタイル転送

著者リスト:Song Kun、Any、Lei Yi、Wang Chunfeng、Wei Kun、Xie Lei、ying Xiang、Ma Zejun

協力ユニット:ByteDance

要約: エンドツーエンド (直接/エンドツーエンド) 音声対音声変換 (S2ST) は、カスケード S2ST システムに比べて多くの利点があるため、徐々に注目を集めています。しかし、現在の研究は主にソース言語からターゲット言語への意味翻訳の精度に焦点を当てており、ソース音声の音色や長さなどの文体情報の伝達は無視されています。高忠実度で表現力の高い並列コーパス データが不足しているため、これらのスタイル情報の転送を実現することが困難になっています。特に実際のアプリケーション シナリオでは、ソース音声の話者がトレーニングに必要なデータを十分に持っていないことがよくあります。ゼロサンプル学習 (ゼロショット) を実現します。この問題を解決するために、我々はまず、多言語マルチ話者テキスト音声合成(TTS)システムを使用して並列コーパスを構築し、直接S2STシステムのフレームワーク上のスタイルアダプタに基づくStyleS2STモデルを提案します。音響モデルの連続スタイル空間モデリングを実現するための並列コーパス トレーニングと非並列 TTS データ拡張を通じて、StyleS2ST はソース言語からターゲット言語への言語を超えた音響特徴の変換をうまく捕捉できます。実験の結果、StyleS2ST は、セット内のスピーカーとセット外のゼロショット シナリオの両方で、優れたスタイルの類似性と自然さを実現できることがわかりました。

  サンプルを参照してください: https://StyleS2ST.github.io/StyleS2ST

  論文URL:https://arxiv.org/abs/2305.17732

#5  DCCRN-KWS: ノイズに強く、フットプリントの小さいキーワードスポッティングのためのオーディオバイアスベースのモデル

著者リスト: Lu Shubo、Wang Xiong、Sun Sining、Ma Long、Xie Lei

パートナー: テンセント

要約: キーワード スポッティング (KWS) の幅広い応用により、複雑な音響環境、特に信号対雑音比 (SNR) が低い音響環境は、KWS システムに大きな課題をもたらすでしょう。音声品質を改善するには、通常、音声強調フロントエンド処理が使用されますが、フロントエンド処理を直接使用すると、音声信号の歪みが発生し、バックエンド タスクの効果に影響を与えます。さらに、現在のキーワード検出では、ウェイクアップ ワードの事前情報が有効に活用されていません。音声認識におけるコンテキスト バイアスに触発されたこの論文では、複雑な音響環境におけるキーワード検出の困難を軽減するために、ウェイク ワード音声コンテキスト バイアスに基づく DCCRN-KWS モデルを提案します。このうち、複雑なニューラル ネットワークに基づく DCCRN ノイズ リダクション ネットワークのエンコーダーは、バックエンド KWS モジュールとカスケード接続され、ノイズ リダクションとウェイクアップを実行します。その後、本論文はさらに、ウェイクアップ ワードに基づくオーディオ コンテキスト バイアス モジュールを導入し、トレーニングを支援するためにウェイクアップ ワードの事前情報を使用します。最後に、この論文では、ウェイク ワードと非ウェイク ワードをさらに区別するための特徴融合モジュールと複雑なコンテキスト線形モジュールを紹介します。車両テスト セット (Dingdang) では、ベースライン モデルと比較して、この論文で提案されたソリューションでは、10 時間ごとに誤ってウェイクアップした場合のウェイクアップ率が 49.73% 絶対的に増加しました。 HI-MIA テスト セット、SNR=-5db、0db、5db、クリーンの場合、ウェイクアップ率はそれぞれ 24.38%、34.4%、10.37%、5.65% 増加しました。

  論文URL:https://arxiv.org/abs/2305.12331

#6 統合ストリーミングおよび非ストリーミング トランスデューサーにおけるコンテキスト バイアスに対する 2 段階のコンテキスト ワード フィルタリング

著者リスト: Yang Zhanheng、Sun Sining、Wang Xiong、Zhang Yike、Ma Long、Xie Lei

パートナー: テンセント

論文要約: エンドツーエンドの ASR システムでは、名前付きエンティティなど、トレーニング データに頻繁に出現しない単語を認識することが困難です。この現象を軽減するために、音響モデルにコンテキスト情報を導入する方法が広く使用されています。このアプローチでは、考えられるすべての文脈候補単語をリストした文脈単語リストが必要です。研究により、リストのサイズと質が重要であることが証明されています。コンパクトで正確なリストにより、パフォーマンスが大幅に向上します。この論文では、ストリーミング/非ストリーミング複合コンフォーマ トランスデューサ (CT) モデルで使用する高品質のコンテキスト ワード リストを取得する効率的な方法を提案します。具体的には、まず音素モデリング ユニットのストリーミング出力を利用して、事前に定義された文脈上の単語のリストをフィルターします。後続の非ストリーミング推論では、フィルタリングされたリストがコンテキスト情報として非ストリーミング エンコーダおよびデコーダに導入され、最終的な認識結果が生成されます。私たちの方法では、ストリーミング認識結果を最大限に活用して、コンテキスト ASR システムの精度を向上させ、推論プロセスを高速化します。2 つの実際のデータセットでの実験では、提案したスキームがベースライン システムと比較して相対文字誤り率を 20% 以上低減することが示されています。一方、元の文脈語彙のサイズが 6000 を超える場合、このスキームの RTF は 0.15 以内に安定化できます。

  論文URL:https://arxiv.org/abs/2301.06735

#7トランスデューサーベースのストリーミング音声認識における適応型コンテキストバイアス 

著者リスト: Xu Tianyi、Yang Zhanheng、Huang Kaixun、Guo Pengcheng、Zhang Ao、Li Biao、Chen Changru、Li Chao、Xie Lei

要約: ディープ バイアス手法は、追加のコンテキスト情報を組み込むことができ、個人化された語彙を識別するための効果的なソリューションです。ただし、産業グレードのアプリケーションの音声アシスタントの場合、予測スコアが高いこのようなパーソナライズされた語彙に常に偏ると、一般的な語彙を認識するパフォーマンスが大幅に低下します。この問題に対処するために、我々は、ストリーム予測の出現に対するバイアスされたエンコーダーと予測子の埋め込みを利用する、Context-Aware Transformer Transducer for Speech Recognition (CATT) に基づく適応コンテキスト バイアス スキームを提案します。この予測は、ホットワード リストのオンとオフを動的に切り替えるために使用され、モデルがパーソナライズされたシナリオと一般的なシナリオの両方に適応できるようにします。Librispeech および内部音声アシスタント データセットの実験では、私たちの方法が、英語と中国語のテスト セットで、ベースラインと比較して、WER/CER で 6.7% および 20.7% の相対的な削減を達成できることを示しています。ホットワード以外のシナリオでは、英語と中国語のテスト セットで、相対的な WER/96.7% および 84.9% を達成できます。 CER の増加は軽減できます。さらに、私たちのアプローチは、トランスデューサーのストリーミング推論プロセスを維持しながら、パーソナライゼーションシナリオにおけるパフォーマンスへの影響を最小限に抑えます。

  論文URL:https://arxiv.org/abs/2306.00804

#8 コンテキストフレーズ予測ネットワークによるコンテキスト化されたエンドツーエンド音声認識

著者リスト: Huang Kaixun、Zhang Ao、Yang Zhanheng、Guo Pengcheng、Mu Bingsheng、Xu Tianyi、Xie Lei

要約: コンテキスト情報は音声認識技術において重要な役割を果たしており、エンドツーエンドの音声認識モデルへのコンテキスト情報の組み込みが最近大きな注目を集めています。ただし、以前のディープ バイアス手法には、バイアス タスクに対する明示的な監視が不足しています。この論文では、注意ベースのディープ バイアス手法のための文脈フレーズ予測ネットワークを紹介します。このネットワークは、文脈埋め込みを利用して発話内の文脈フレーズを予測し、バイアス損失を計算することでディープ バイアス モデルのトレーニングを支援します。私たちの方法は、さまざまなエンドツーエンドの音声認識モデルで単語誤り率 (WER) の大幅な削減を実現します。LibriSpeech コーパスの実験では、提案されたモデルがベースライン モデルと比較して相対的に 12.1% の WER 改善を達成し、文脈フレーズに対して相対的に 40.5% の WER 削減を達成することが実証されました。さらに、コンテキスト フレーズ フィルタリング戦略を適用することにより、より大きなバイアス リストを使用する場合の WER 上昇も効果的に回避します。

  論文URL:https://arxiv.org/abs/2305.12493

#9 TranUSR: 異言語音声認識のための音素から単語へのトランスコーダベースの統一音声表現学習 

著者リスト:Xue Honfei、Shao Qijie、Chen Peikun、Guo Pengcheng、Xie Lei、Liu Jie

パートナー: ファーウェイ

要約: UniSpeech は、マルチタスク自己教師あり学習を使用して潜在表現を音素単位と明示的に位置合わせすることにより、言語を超えた自動音声認識 (ASR) で最先端のパフォーマンスを実現します。ただし、これらの学習された潜在表現は高リソース言語から低リソース言語に移行可能ですが、これらの音素関連表現から直接単語を予測することは、下流の ASR では依然として困難です。この論文では、事前トレーニングされた UniData2vec と音素から単語へのトランスコーダで構成される 2 段階モデル​​である TranUSR について説明します。まず、UniSpeech とは異なり、UniData2vec は、電話対応の事前トレーニングに離散的な量子化表現ではなく、教師モデルからの連続的かつ文脈に応じた表現を使用するため、言語間の特徴を抽出する能力が向上します。次に、追加のテキストの助けを借りて、トランスコーダーは音素の事後確率を単語に変換することを学習し、モデルが単語を直接生成できるようにします。Common Voice データセットの実験では、UniData2vec は UniSpeech と比較して音素誤り率 (PER) を 5.3% 削減し、一方、Transcoder は書記素の微調整と比較して 14.4% の相対的な単語誤り率 (WER) の削減を達成したことを示しています。

  論文URL:https://arxiv.org/abs/2305.13629

#10 BA-SOT: マルチトーカー ASR のための境界を意識したシリアル化された出力トレーニング 

著者リスト:梁裕豪、余範、李揚澤、郭鵬成、張世良、陳銭、謝磊

パートナー: アリババ

要約: 最近提案された Sequenced Output Training (SOT) は、特殊なトークンで区切られたさまざまな話者の発話を生成することにより、複数話者の自動音声認識 (ASR) のプロセスを簡素化します。ただし、頻繁に話者を切り替えると、話者の変更の予測が困難になる可能性があります。この問題に対処するために、我々は境界認識直列化出力トレーニング (BA-SOT) を提案します。これは、スピーカー切り替え検出タスクと境界制約付き損失を介して境界知識をデコーダーに明示的に組み込みます。また、文字レベルの SOT CTC を使用して時間コンテキスト情報を回復する 2 段階の CTC 戦略も導入します。一般的に使用される文字誤り率 (CER) に加えて、話者切り替え予測の精度をさらに測定するために文依存文字誤り率 (UD-CER) も導入します。元の SOT と比較して、BA-SOT の CER/UD-CER は 5.1%/14.0% 相対的に減少しています。事前トレーニングされた ASR モデルを使用して BA-SOT モデルを初期化すると、CER/UD-CER をさらに削減できます。 8.4%/19.9%%。

  論文URL:https://arxiv.org/abs/2305.13716

#11話者識別における擬似シャムネットワークベースの音色予約ブラックボックス敵対的攻撃 

著者リスト:Wang Qing、Yao Jixun、Wang Ziqian、Guo Pengcheng、Xie Lei

要約: この論文は、声紋モデルの弱点を利用するだけでなく、ブラックボックス攻撃条件下でターゲット話者の音色を保存する、話者識別 (SID) のための音色保存のための敵対的攻撃方法を提案します。具体的には、音声変換モデルのトレーニング中に敵対的制約を追加することで、ターゲット話者の音色を維持する偽の音声を生成します。擬似シャム ネットワーク構造を利用して、本質的な類似性と構造的類似性を制限しながら、ブラック ボックスの声紋モデルから学習します。固有の類似性損失は、固有の不変性を学習することであり、構造的類似性損失は、代替の声紋モデルが固定ブラックボックス声紋モデルと同様の決定境界を共有することを保証することです。サロゲート モデルは、攻撃用に音色を保持する偽のオーディオを生成するために使用されます。Audio Deepfake Detection Challenge 2022 (ADD 2022) データセットの実験結果は、私たちが提案した手法の攻撃成功率が、ホワイト ボックス シナリオとブラック ボックス シナリオでそれぞれ 60.58% と 55.38% と高く、人間と人間の両方をだますことができることを示しています。機械。

  論文URL:http://arxiv.org/abs/2305.19020

おすすめ

転載: blog.csdn.net/weixin_48827824/article/details/131125914