THUHCSI Human-Machine Speech Interaction Laboratoryからの9本の論文が、主要な音声カンファレンスであるINTERSPEECHに採択されました

国際音声コミュニケーション協会の2023年ISCA年次会議(INTERSPEECH 2023)は、2023年8月20日から24日までアイルランドのダブリンで開催され、清華大学ヒューマンコンピュータ音声インタラクション研究室(THUHCSI)から9件の論文がこの会議で発表されますこれらの論文には、音声合成、音声認識、音声強調、音声分離、ビデオダビング、その他の研究分野が含まれます。

01 ノイズ 除去拡散確率モデルによる多様で表現力豊かな音声韻律予測

著者: Xiang Li、Songxiang Liu、Max MY Lam、Zhiyong Wu、Chao Weng、Helen Meng

パートナー: Tencent AI Lab、香港中文大学

この論文の主な革新点:表現力豊かな音声合成における自動韻律制御を目指して、この論文はノイズ除去拡散確率モデル (DDPM) に基づく韻律予測器を初めて提案します。予測子はテキスト コンテンツの特徴を生成条件として使用し、DDPM ベースの生成モデリング フレームワークがテキスト コンテンツの特徴から韻律表現までのモデリングを完了します。韻律表現の予測誤差トレーニングを最小限に抑える既存の方法と比較して、この方法はターゲット韻律特徴分布に関する単純化された仮定によって制限されなくなりましたが、DDPM を直接使用して韻律表現の確率分布をモデル化します。 DDPM のサンプリング結果の多様性により、この方法では、同じ入力テキストに対して異なる韻律予測結果を生成でき、生成される音声スタイルの均一性が回避されます。表現力の高いオーディオブック データに関する実験結果は、音素の韻律的特徴 (つまり、持続時間、ピッチ、エネルギー) を予測するために、予測子を FastSpeech 2 音声合成フレームワークに置き換えることで、実際の韻律的特徴分布のフィッティング効果の精度を効果的に向上できることを示しています。既存の方法における過度の平滑化の問題を改善します。主観的な評価結果からも、予測された韻律表現を使用して合成音声の表現力を制御することが大幅に改善されたことが示されています。

写真

DDPM ベースの韻律予測子とトレーニングと推論の図を備えた TTS システム フレームワーク

 DDPMに基づく韻律予測子の主観的および客観的評価結果

02 会話型テキスト読み上げ合成の半教師あり事前トレーニングによる自発的なスタイル モデリングに向けて

著者: Weiqin Li、Shun Lei、Qiaochu Huang、Yixuan Zhou、Zhiyong Wu、Shiyin Kang、Helen Meng

協力単位:元祥科技有限公司

この論文の主な革新点:この論文は、自発的なスタイルの会話音声合成 (Spontaneous-style Conversational TTS) のための半教師あり事前トレーニングに基づく自発現象モデリング方法を提案し、言語認識ネットワークを追加して、言語認識ネットワークの文脈情報を強化します。会話のカビ。自発的スタイルには多くの非流暢現象 (例: えーっと、ああ、コーダの延長など) が含まれています。これらのパラ言語的特徴は自発的現象と呼ばれ、これが自発的スタイル TTS とリーディング スタイル TTS の主な違いです。ただし、高品質でラベル付きの自発的スタイルのデータセットを取得するコストは高すぎるため、この論文では、自発的現象のラベルを増やすために、2 つの自発的現象 (充填休止と延長) に対する半教師あり事前トレーニング方法を提案します。高品質のデータ セットを使用してラベル検出器をトレーニングし、多数の低品質のデータ セットから擬似ラベルを抽出します。次に、大量の低品質のデータ セットを使用して TTS モデルを事前トレーニングし、最後に微調整します。高品質のデータセットを使用して調整して TTS を強化する 自然現象に対するモデルの予測力。対話における言語情報とは対話における各文のつながりを指し,本論文では,対話における言語情報をモデル化し,合成音声をより自然にするための多頭注意メカニズムに基づく言語知覚ネットワークを提案する.主観評価の実験結果は、提案された方法が対話における自発的現象をモデル化および予測するモデルの能力を向上できることを示しています。

 提案手法の基本構造

写真

03 表現力豊かなビデオダビングのための3D視覚情報による韻律モデリング

著者: Zhihan Yang、Shangsong Liu、Xu Li、

Haozhe Wu、Zhiyong Wu、Ying Shan、Jia Jia

パートナー: Tencent Technology Co., Ltd.

この論文の主な革新点は、個人や業界のダビングのニーズを満たすために自動ビデオダビングタスクが提案されているということです。現在の手法のほとんどは継続時間の一致に重点を置き、韻律の同時性を無視しており、表現力に欠けています。本稿では,ビデオアフレコの表現力を向上させるために,3D視覚韻律モデリングを導入する.3D視覚韻律モデリングは,3次元空間における表情や頭の姿勢として定義される.その利点は,1)発話のトーンやアクセントと高い相関がある,2)詳細である2D 画像よりも正確; 3) 話者の身元などの無関係な要因から解放されます。我々は、生成された韻律を制御するビジュアルテキスト段階的アライナを使用して、3D視覚韻律を組み込む3D-VD(3D Video Dubber)システムを提案します。実験の結果、この方法は、自然さ、唇の位置、視覚と聴覚のリズムの同期の点で、2D 顔画像のみを考慮する従来の方法よりも優れていることがわかりました。ケーススタディでは、表情とピッチの相関関係を検証します。

写真

提案手法の基本構造

04  ZeroPrompt: ストリーミング アコースティック エンコーダはゼロショット マスク LM です

著者: Xingchen Song、Di Wu、Binbin Zhang、Zhendong Peng、Bo Dang、Fuping Pan、Zhiyong Wu

協力団体:ホライゾン・インフォメーション・テクノロジー株式会社、

WeNet オープンソース コミュニティ

この論文の主な革新:この論文では、ZeroPrompt (下の図 1(a)) と、対応する Prompt-and-Refine 戦略 (下の図 3) を紹介します。これらは、トレーニングを必要としない 2 つのシンプルだが効果的な方法です。精度を犠牲にすることなくストリーミング自動音声認識 (ASR) モデルのトークン表示時間 (TDT) を実現します。ZeroPrompt の中心的なアイデアは、推論中に各チャンクに空白のフレームを付加することであり、これはモデルが将来の単語を予測することを促すヒントとして機能します。私たちは、ストリーミング音響エンコーダーがマスク言語モデルのモデリング機能を自然に備えていると信じており、私たちの実験では、ZeroPrompt は安価に設計でき、精度を損なうことなくあらゆるデータセットに適用できることが示されています。具体的には、ベースラインモデルと比較して、最初のトークン提示までの時間(TDT-F)は350~700ミリ秒、最後のトークン提示までの時間(TDT-L)は100~700ミリ秒の短縮を達成し、 Aishell-1 データセットと Librispeech データセットの認識誤り率 (WER) は、理論的にも実験的にも同等です。

写真

写真

05  SememeASR: Sememe セマンティック知識によるドメインおよびロングテール データ シフトに対するエンドツーエンド音声認識のパフォーマンスの向上

著者: Jiaxu Zhu、Changhe Song、Zhiyong Wu、Helen Meng

パートナー: 香港中文大学彭城研究室

この論文の主な革新:この論文は、ロングテール データに対するモデルの認識効果を向上させ、モデルのドメイン汎化能力を強化するために、Sememe 知識に基づいて意味的に強化されたエンドツーエンドの音声認識モデルを提案します。言語学の定義によれば、セミームは言語の最小の意味単位であり、各単語の背後にある暗黙的な意味情報を非常に明示的に表すことができます。知識駆動型の方法は、ロングテールデータの認識不足など、データ駆動型の方法によって引き起こされる問題を効果的に軽減できることを考慮して、音声認識タスクに初めてセムムベースの知識を導入します。したがって、この論文では、一連の方法を使用して、エンドツーエンドの音声認識モデルにセミーム情報を導入します。主なものは、セミーム表現とテキスト表現の組み合わせを導入して、テキストの表現能力を向上させることです。2 つ目は、マルチタスク トレーニング方法を使用し、セムム予測タスクを導入して、セムムの知識をモデル化するモデルの能力をさらに強化することです。私たちの実験では、意味情報を導入すると音声認識の有効性が向上することが示されました。さらに、さらなる実験により、セミームの知識によってロングテール データに対するモデルの認識が向上することが示されました。そして、モデルのドメイン汎化能力を強化します。

写真

提案手法の基本構造

06 ダウンサンプリング音響表現によるエンドツーエンドの音声認識のためのテキストのみのドメイン適応

著者: Jiaxu Zhu、Weinan Tong、Yaoxun Xu、Changhe Song、Zhiyong Wu、Zhao You、

ダン・スー、ドン・ユー、ヘレン・メン

パートナー: Tencent Technology Co., Ltd.、Pengcheng Laboratory、

香港中文大学

この論文の主な革新点:この論文は、新しいドメインのプレーン テキストを使用してエンドツーエンドの音声認識でドメイン適応 (テキストのみのドメイン適応) を実行する作業に重点を置き、音声モダリティとテキストの新しい方法を提案します。表現空間を共有するモダリティ。以前の関連研究でアップサンプリングされたテキスト表現と音声表現を整列させる方法とは異なり、音響表現をダウンサンプリングし、それらを対応するテキストと単調に整列させる連続統合発射 (CIF) メカニズムを導入し、音響表現とテキストを作成します。表現 同じ長さ。さらに、音声モダリティとテキスト モダリティの間の中間ブリッジとしてピンインを導入し、音声モダリティとテキスト モダリティを共通の表現空間にマッピングできるようにします。ドメイン適応化のための新しいフィールドでプレーン テキストを使用する場合、テキストをピンインに変換し、ピンイン エンコーダーを通じて音響モダリティと共有される表現空間にピンインをマッピングし、不足している音響表現を置き換えるために対応する表現を取得します。新しい分野では、エンドツーエンドの音声認識モデルのデコーダ部分が微調整され、新しい分野での音声認識モデルの認識効果を向上させるという目的を達成します。

写真

提案手法の基本構造

07 周囲の音に注目:距離と話者情報によるモノラル対象話者抽出

著者: Jiuxin Lin、Peng Wang、Heinrich Dinkel、Jun Chen、Zhiyong Wu、Zhiyong Yan、Yongqing Wang、Junbo Zhang、Yujun Wang

パートナー: Xiaomi Technology Co., Ltd.

この論文の主な革新点は、ターゲット話者抽出 (TSE) で、音声強調と音声分離のいくつかのアプリケーション シナリオで優れたパフォーマンスを示しています。ただし、残響が大きい騒音環境で補助話者関連の情報を取得し、目的の話者の音声を抽出することは依然として困難です。私たちは、最近提案された距離に基づく音の分離に触発され、話者情報の登録を必要とせずに、距離情報を利用して指定された距離範囲内の対象話者の音声を抽出できる NS-Extractor を提案します。同時に、フルバンドとサブバンドのモデリングを導入し、残響の多い環境下での NS-Extractor の堅牢性を強化しました。複数のデータセットに対する実験結果は、さまざまなアプリケーション シナリオにおける改善の有効性と、提案した NS-Extractor の優れたパフォーマンスを示しています。

写真

提案手法の基本構造

08  MC-SpEx: マルチスケールインターフュージョンと条件付きスピーカー変調による効果的なスピーカー抽出に向けて

著者: Jun Chen、Wei Rao、Zilin Wang、

Jiuxin Lin、Yukai Ju、Shulin He、Yannan Wang、Zhiyong Wu

パートナー: Tencent Teana Lab、香港中文大学

この論文の主な革新点:以前の SpEx+ は話者抽出において優れたパフォーマンスを達成し、広く注目を集めました。しかし、依然としてマルチスケール情報とスピーカーの埋め込みが十分に活用されていないという問題があります。この目的を達成するために、本稿では、MC-SpEx と呼ばれる、マルチスケール融合メカニズムと条件付きスピーカー変調 (ConSM) メカニズムを含む、新しい効率的なスピーカー抽出システムを提案します。まず、マルチスケール情報を効果的に利用し、モデル特徴空間の一貫性を保証するために、ウェイト共有マルチスケール フューザー (ScaleFuser) を設計します。次に、マスクを生成するときにさまざまなスケール情報を考慮するために、マルチスケール インタラクティブ マスク ジェネレーター (ScaleInterMG) を提案します。さらに、音声抽出機能のスピーカー埋め込みを最大限に活用するための ConSM モジュールも導入します。Libri2Mix データセットの実験結果は、私たちの改善の有効性を示しており、私たちが提案した MC-SpEx は最先端のパフォーマンスを達成しています。

写真

提案手法の基本構造

09  Gesper: 一般的な音声復元のための復元強化フレームワーク

著者: Wenzhe Liu、Yupeng Shi、Jun Chen、Wei Rao、Shulin He、Andong Li、Yannan Wang、Zhiyong Wu

パートナー: Tencent Teana Lab、音響研究所、中国科学院

この論文の主な革新:この論文では、ICASSP 2023 の音声信号改善 (SSI) チャレンジに提出されたリアルタイム一般音声再構成 (Gesper) システムについて説明します。新しく提案されたシステムは、最初に音声復元を実行し、次に音声強調を実行する 2 段階のアーキテクチャです。我々は初めて、第一段階の音声修復モジュールとして複雑スペクトルマップベースの敵対的生成ネットワーク (CSM-GAN) を提案します。ノイズ抑制と残響除去のために、エンハンスメント ブロックはフルバンド広帯域の並列処理を使用します。ICASSP 2023 SSI Challenge のブラインド テスト セットでは、この論文で提案されている Gesper システムはリアルタイム条件を満たし、全体の平均オピニオン スコア (MOS) 3.27 P.804 と全体の MOS 3.35 P.835 を獲得しました。 . トラック 1 で、トラック 2 でランキング 1 位になりました。

写真

提案手法の基本構造

おすすめ

転載: blog.csdn.net/weixin_48827824/article/details/132451436
おすすめ