天津大学認知コンピューティングおよびアプリケーション天津重点研究所の視聴覚コグニティブコンピューティングチームからの12本の論文が、音声処理に関するトップカンファレンスであるInterspeech 2023に採択されました。

天津大学認知コンピューティング応用応用天津重点研究所の視聴覚コグニティブコンピューティングチームから、意図認識、音声言語理解、音響特徴、音声認識、音声分離、感情認識などの研究方向をカバーする12件の論文が、音声技術のトップカンファレンスであるInterspeech 2023に採択されました。

01. 視聴覚話者抽出における視覚的手がかりの再考

論文の著者:Li Junjie、Ge Meng、Pan Zexu、Cao Rui、Wang Longbiao、Dang Jianwu、Zhang Shiliang

論文単位:天津大学、アリババ達磨学院

オーディオビデオ音声分離では、視覚情報を利用して混合音声から対象者の音声信号を抽出します。しかし、現在の手法では、視覚情報を抽出するために 1 つのビジュアル エンコーダのみを使用します。本論文では、2 つのビジュアル エンコーダを使用して、視覚信号内の話者情報と同期情報をそれぞれ抽出することを提案します。モデル構造を図 d に示します。この論文の実験結果は、識別情報と同期情報を明示的に利用する方法は、単一のデコーダによって暗黙的に利用される方法と比較して、音声分離モデルのパフォーマンスを大幅に向上できることを示しています。

02. 位置特定とビーム形成: マルチチャネル音声分離のための 2 次元位置特定全ニューラル ビームフォーマー

論文の著者:Fu Yanjie、Ge Meng、Wang Honglong、Li Nan、ying Haoran、Wang Longbiao、Zhang Gaoyan、Dang Jianwu、Deng Chengyun、Wang Fei

論文担当:天津大学、シンガポール国立大学、北京暁居科技有限公司

論文リソース: https://arxiv.org/abs/2305.10821

近年、ニューラル ビームフォーミング技術により、マルチチャネル音声分離において驚くべき進歩が見られます。ただし、混合信号に含まれるスピーカーの 2D 位置キューはほとんど無視されます。本稿では、混合信号のみが与えられた2次元位置情報によって音声分離を誘導するためのエンドツーエンドのビームフォーミングネットワークを提案します。ネットワークはまず、複数の基準マイクとその 2D 位置座標に対する音源の到来方向を暗示する、識別可能な方向と 2D 位置の手がかりを推定します。これらのキューは位置認識型ニューラル ビームフォーミング モジュールに統合され、両方のソースからの音声信号を正確に再構築できるようになります。実験の結果、ベースライン システムと比較して、私たちが提案したモデルは音声分離メトリクスの全体的な改善を達成するだけでなく、空間的重複の場合のパフォーマンス低下も回避できることがわかりました。

03.  SDNet: アドホックアレイ音声分離のためのストリームアテンションおよび二機能学習ネットワーク

論文の著者: 王紅龍、鄧成雲、傅延傑、葛蒙、王龍表、張高燕、唐建武、王飛

論文単位:天津大学、北京暁居科技、シンガポール国立大学

固定アレイを使用したマルチチャネル音声分離の分野では、大きな進歩が見られました。この論文では、マイクロフォンの位置と数の不確実性に対処するための、分散型マイクロフォン アレイのための堅牢なシステムを提案します。これまでの研究では通常、分散したマイク信号を処理するために平均化手法が使用され、異なる場所にあるマイクの多様性は無視されていました。いくつかの研究では、信号対雑音比の高いマイクが通話品質の向上に役立つことが示されています。これに触発されて、私たちは SDNet というチャネル フロー アテンションと 2 つの機能を備えた学習ネットワークを提案します。主な貢献は次のとおりです。 1) 長期的な依存関係をより適切に学習するために、より少ないパラメータを備えた二重機能学習ブロックを提案します。2) この高品質の音声表現に基づいて、さまざまな位置と数のマイクを効果的に処理し、SNR の高いマイクにより多くの注意を割り当てるチャネル フロー アテンションをさらに提案します。実験により、私たちが提案したモデルが他のベースライン モデルよりも優れていることが実証されました。

04. マルチモーダルな情報の統合による、同じテキストに含まれる異なる意図の識別

論文の著者: Li Zhongjie、Zhang Gaoyan、Wang Longbiao、Dang Jianwu

論文単位:天津大学

人工知能の発展とスマートデバイスの普及に伴い、人間と機械のインテリジェントな対話技術が大きな注目を集めています。発話意図理解は対話システム全体の核となるモジュールであり、テキスト情報が持つ言語的意図や音響情報が持つパラ言語的意図など、話者が伝える総合的な意図情報をいかに正確に取得するかが重要な課題となる。

現在、多くの意図理解研究では、パラ言語情報の影響が無視されており、特に同じテキストが異なるパラ言語情報を通じて異なる意図を伝える場合、音声対話中に誤解が生じます。この問題に対処するために、この研究ではまず、同じテキストを含むが異なる意図を含む中国語のマルチモーダル音声意図理解データセットを作成します。次に、私たちが提案する注意ベースの BiLSTM モデルは、テキストと音響の特徴を統合し、言語的意図を補完または修正するための音響情報ゲート メカニズムを導入します。実験結果では、マルチモーダル融合モデルは、言語情報のみを使用するモデルと比較して、意図認識の精度が 11.0% 向上することが示されています。この実験結果は、特に同じテキストだが異なる意図の場合、意図認識における私たちの提案したモデルの有効性を示しています。

05. より高いスペクトル範囲とより低いスペクトル範囲における個々のスピーカー特性の周波数パターン

論文著者:Zhang Zhao、Zhang Ju、Zhu Ziyu、Chi Yujie、Honda Kiyo、Wei Jianguo

論文担当:天津大学、恵延科技(天津)有限公司

音声の音響特性は個人によって異なりますが、聴取者が聴覚系を通じて認識および区別できる音声の共通の基本情報は依然として保持されています。このペーパーでは、話者のパーソナライゼーション機能の一般的な時間周波数パターンについて説明します。この論文の主な目的は、高周波数範囲と低周波数範囲のそれぞれにおける話者ごとに個別化された周波数領域の特徴について議論することです。この未解明の現象を調査するために、私たちは 2 つの実験を実行しました。まず、伝送線路モデルに基づく音響シミュレーション計算を利用して、さまざまな下咽頭腔形状における高周波共鳴の変化を調査しました。次に、低スペクトル不規則性に対する潜在的な個人化要因を観察するために、口と鼻孔から発せられる音声信号を別々に記録しました。以前に蓄積された研究と組み合わせた私たちの発見に基づいて、話者のパーソナライゼーション特徴を表現するための時間-周波数モデルを提案します。これは、音声スペクトログラム内の話者のパーソナライゼーション情報のおおよその分布を提供します。

06. トランスフォーマーベースのスロット セマンティクス フュージョンによるゼロショット クロスドメイン スロット充填の改善

論文の著者: Li Yuhang、Wei Xiao、Si Yuke、Wang Longbiao、Wang Xiaobo、Dang Jianwu

論文単位:天津大学

スロット充填は、タスクベースの対話を音声で理解する上で重要な要素です。実際のシナリオでは、ラベル付きデータが不足しているため、ソース ドメインからターゲット ドメインに知識を転送するために、ゼロショット スロット充填が広く研究されてきました。従来の方法では、スロットのテキスト記述または質問をスロットの意味情報として使用し、スロットのテキスト記述を利用して類似性スコアを計算したり、タスクを機械読解タスクとして再キャストしたりしていました。ただし、これらの方法では、スロットの意味情報と文間の単語レベルの依存関係が十分に活用されていません。本研究では、Transformer ベースのスロットセマンティック融合法 (TSSF) を提案します。重み共有エンコーダは、文とスロットのセマンティクスの表現を取得するために最初に使用されます。次に、スロット セマンティクスを文表現に効果的に融合する、Transformer ベースのスロット セマンティクス融合モジュールを設計します。公開データセット SNIPS での実験結果は、私たちのモデルがスロット F1 メトリクスで最先端のモデルを 6.09% 大幅に上回っていることを示しています。

07.  EEGからの一般的な空間パターンを使用した現実のシナリオにおける聴覚的注意の検出

論文の著者: Yang Kai、Xie Zhuang、Zhou Di、Wang Longbiao、Zhang Gaoyan

論文担当:天津大学ソフトウェア学部、河南大学、北陸先端科学技術大学院大学、日本

聴覚的注意を検出するための脳波(EEG)ベースの方法は、難聴を持つ人々の聴力を改善するために神経指向性聴覚装置に使用できる可能性がある。しかし、これまでの研究のほとんどは実験室環境で脳波データを取得しており、神経誘導聴覚装置の実際の応用は制限されていました。本研究では、BCI分野で一般的に使用されているCommon Spatial Patterns(CSP)アルゴリズムを採用し、被験者の異なる行動状態(座位と歩行)を区別しながら、実際のシーンで収集されたEEG信号を使用して聴覚注意検出を実行します。結果は、異なる決定ウィンドウ (1 秒~30 秒) を使用した場合、CSP 手法は 81.3% ~ 87.5% の検出精度を達成でき、線形マッピングに基づく以前の手法や従来の CNN 手法を上回っていることを示しています。これは、CSP アルゴリズムが現実のシナリオで人々の注意を効果的に解読できることを証明しています。EEGサブバンドの実験結果は、デルタバンドとベータバンドが注意課題においてより活発であることを示し、以前の研究の結果を裏付けました。

08. 非鼻母音の話者特性に寄与する経鼻結合

論文著者: Zhu Ziyu、Chi Yujie、Zhang Zhao、Honda Kiyoshi、Wei Jianguo

論文単位:天津大学

鼻腔の構造は発音中に安定しており、話者ごとに個人差があるため、鼻共鳴は話者の個性を形成する上で重要な役割を果たします。鼻腔の音響的役割に関する研究では、主に鼻化母音について議論されており、鼻腔は口蓋帆咽頭ポート (VPO) を介して主声道に接続されており、鼻化母音の音響特性が変化します。しかし、研究者らは、鼻共鳴が横鼻結合を介して非鼻母音の発音で発生し、非鼻母音の音響特性に無視できない影響を与えることを発見しました。本論文では,音響実験用に一群の実験装置を設計し,唇放射音と鼻孔放射音をそれぞれ記録した。発音コーパスは非鼻音化母音で構成されます。スペクトル分析技術を使用して、鼻共鳴特性と非鼻母音発音の音響的影響を調査します。結果は、スピーカー間の鼻共鳴特性の違いが 2kHz 以下で分布していることを示しています。低い周波数は 2 つのピークとその間のヌルとして現れ、高い周波数は不均一な分布を持つ微妙なヌルとして現れます。さらに、鼻孔放射音の混合により、唇放射音によって出力される母音の最初の共鳴ピークが減少しますが、その減少の度合いは話者によって異なります。

09. 低上昇音の音調輪郭に及ぼす音調調音と韻律位置の影響: アモイ方言の場合

論文の著者: Hu Yiying、Feng Hui、Zhao Qinghua、Li Aijun

論文担当:天津大学、中国社会科学院

論文リソース: http://arxiv.org/abs/2306.02251

本論文は、厦門福建語における低音調調音調と韻律位置の影響を研究し、声調三角形における音調の屈折の度合いを測定する定量的方法(TCATT: Tonal Contour Analysis in Tonal Triangle)を提案する。実験結果は,厦門福建語の低音上昇音T2が下降上昇音になる傾向を示し,音調調音と韻律位置がその曲折性に重大な影響を与えることを示した。調音性の影響は、T2 の前の音節が高平音の場合には T2 が下降音として現れ、このときの抑揚の度合いが最も大きくなり、前の音節が低平音または低下降音の場合には T2 が下降音として現れる。韻律位置の影響は、T2 が文の先頭にある場合、そのトーン カーブの曲がり具合が文の中間および終わりの T2 の曲がり具合よりも大幅に大きく、音節の長さがトーン カーブの曲がり具合と正の相関があることに反映されています。

10. セマンティックグラフ埋め込み正則化を使用した中国語の音声認識の改善

論文の著者: Lin Yangshi、Lu Wenhuan、Jia Yongzhe、Ma Guoning、Wei Jianguo

論文単位:天津大学

この論文では、エンドツーエンドの音声認識システム (ASR) におけるセマンティック グラフ埋め込みの役割を調査します。まず、漢字の意味グラフの構築方法を紹介する. 漢字の意味グラフは, 漢字をノードとして, エッジの重みは文中の文字の組み合わせの頻度と文字の組み合わせから構成される語彙の重みによって決定される. 漢字意味グラフの構築が完了したら、グラフ埋め込み法を使用してグラフをグラフ埋め込みベクトルに変換します。このベクトルは、エンドツーエンド ASR のデコーダの重みを正規化するために使用されます。このベクトルに含まれる意味情報は、エンドツーエンドの ASR が意味グラフに含まれる意味論と人工的に構築されたワード グラフのルールを理解するのに役立つと考えられます。Aishell1 データセットで実験を行ったところ、文字エラー率は 4.36% でしたが、言語モデルを追加した後は、文字エラー率が 4.25% に減少しました。実験結果は、この方法がエンドツーエンド ASR の文字エラー率を大幅に削減できることを証明しています。

11.  SOT: 教師なし適応音声感情認識のための自己教師あり学習支援最適トランスポート

論文の著者: Zhang Ruiteng、Wei Jianguo、Lu Xugang、Li Yongwei、Xu Junhai、Jin Di、Tao Jianhua

論文単位:天津大学、青海民族大学、通信科学技術研究所、中国科学院自動化研究所、清華大学

クロスドメイン音声感情認識 (SER) では、異なるドメイン間のグローバル確率分布距離 (GPDD) を短縮することが、教師なしドメイン適応 (UDA) において重要な役割を果たします。これは、最適転送 (OT) によって自然に測定できます。ただし、感情カテゴリのクラス内分散が大きいため、重複する分布からのサンプルは負の転移を引き起こす可能性があります。さらに、OT は GPDD のみを考慮するため、クラス内分布のローカル構造を利用しない限り、区別できないサンプルを効果的に転送することはできません。クロスドメイン SER 用の自己教師あり学習 (SSL) 支援最適転送 (SOT) アルゴリズムを提案します。まず、OT のトランスポート結合を正規化して負の転送を軽減し、次に、OT が転送不可能な知識を取得できるようにローカルのクラス内構造を強調するように SSL モジュールを設計します。クロスドメイン音声感情認識の実験結果は、SOT が最先端の教師なしドメイン適応アルゴリズムよりも大幅に優れていることを示しています。

12. 騒音下での音声感情認識のための多レベル知識蒸留

論文著者:Liu Yang、Sun Haoqin、Chen Geng、Wang Qingyue、Zhao Zhen、Lu Xugang、Wang Longbiao

論文担当:青島科技大学、国立情報通信研究所、天津大学

近年、音声感情認識(SER)の性能が著しく向上しています。ただし、ほとんどのアルゴリズムは純粋な音声条件下でトレーニングおよびテストされており、騒音下で良好な音声感情認識パフォーマンスを達成する方法は依然として困難な課題です。この目的を達成するために、私たちはマルチレベル知識蒸留 (MLK​​D) 手法を提案します。この手法は、きれいな音声でトレーニングされた教師モデルから、雑音のある音声でトレーニングされたより単純な生徒モデルに知識を伝達することを目的としています。具体的には、wav2vec-2.0 で抽出されたクリーンな音声特徴を学習対象として使用し、元の wav2vec-2.0 の特徴抽出能力に近づけるために、雑音環境下で wav2vec-2.0 を学習させます。さらに、オリジナルの wav2vec-2.0 のマルチレベルの知識を活用して、distil wav2vec-2.0 の各中間層の出力を監視します。この論文では、IEMOCAP コーパスと Noisex-92 ノイズ ライブラリに関する実験を行います。実験結果は、ベースラインシステムと比較して、提案された方法があらゆる種類のノイズの下で UA で平均 18.23% の改善を達成し、競争力のある結果を示していることを示しています。

おすすめ

転載: blog.csdn.net/weixin_48827824/article/details/131442498