AliSSR音声スーパースコアアルゴリズム:オンライン会議の音声をより明るく、より自然にする

スーパーポイントはオンライン会議の声を明るくします。オンライン会議は日常業務でのコミュニケーション手段として一般的になり、コンピューターによる会議への参加、携帯電話による会議への参加など、会議へのアクセス方法も多様化しています。電話で会議に参加する。

Xueya、Yaochen セ著者

ご存知のように、サンプリングレートと帯域幅が高いオーディオ信号には周波数成分が豊富に含まれているため、より没入感のあるリスニング体験を得ることができます。しかし、オンライン会議では、機器などの理由で元の取得帯域幅が低すぎるシナリオでは、相手の話を聞くのがつまらないという直感的な感覚が会議体験に深刻な影響を及ぼします。信号処理では、音声細分化技術を利用してこのような状況に対処することができ、低帯域幅の音声信号から高周波成分を最大限に再構築できるため、音声信号がより「明るくリアル」に聞こえ、顧客は、より優れた高品質の通話体験を提供できます。

効果の簡単なデモンストレーションは次のとおりです。

AliSSR音声スーパースコアアルゴリズム効果のデモンストレーション

作者注:ビデオの前半は狭帯域信号であり、後半は超分割後の広帯域信号です。

音声超分割技術に関する初期の研究は、主に、コードブックマッピングまたは線形マッピングを介して高帯域スペクトルエンベロープを予測するソースフィルターモデルなどの従来の信号処理理論を中心に展開されています[1、2]。近年、信号処理の分野で深層学習技術を応用することで、深層学習の恩恵を受けて音声スーパースコア技術の効果が大幅に向上しています。

当初、従来の信号処理フレームワークが継続され、ニューラルネットワークが元のフレームワークの一部を置き換えて高周波帯域のスペクトルエンベロープまたは振幅スペクトルを予測し[3、4]、位相拡張は従来の方法に従って計算の複雑さを低く抑えます。ただし、位相情報は、人間の耳の主観的な聴覚に無視できない影響を及ぼします。

その後、画像の超解像アルゴリズムに触発されて、エンドツーエンドのニューラルネットワークモデルが音声の超解像タスクに適用され[5、6]、時間領域で信号を直接予測し、位相問題を回避しました。損失関数(L2損失など)を最小化することによってトレーニングされます。その後、元の損失関数と敵対的損失を組み合わせてより良い結果を達成するGANトレーニング方法が導入されました[7、8]。

現在、サンプリングレートを8KHzから16KHzに上げる場合(スペクトル帯域幅を4KHzから8KHzに拡張)に主に焦点を当てています。

音声スーパースコアアルゴリズム:AliSSR

ニューラルネットワークベースの音声超解像アルゴリズムは、近年、優れた超解像結果を達成していますが、これらのアルゴリズムの多くは、デュアル非アルゴリズム(非リアルタイム非因果的)であり、多くの場合、大量の実際に実装するのが難しいパラメータと計算。アプリケーションシナリオでの展開。上記の実際的な問題に基づいて、Alibaba Cloud Video Cloud Audio技術チームは2つのリアルタイム因果音声スーパースコアアルゴリズムを開発しました:AliSSR(e2eバージョン)とAliSSR(軽量バージョン)。高品質の音声オーバースコアを維持します。

1.アルゴリズムの原則の概要

A. AliSSR(e2eバージョン):エンドツーエンドのエンコーダー-デコーダーモデルに基づいています。このモデルは、実際のアプリケーションシナリオと組み合わせて、エンコード、デコード、およびダウンサンプリングによって生じる損失を十分に考慮し、GAN関連のトレーニング手法を組み合わせて帯域幅拡張の効果を向上させます。

B. AliSSR(軽量バージョン):従来の信号処理と深層学習を組み合わせたアルゴリズムモデル。モデルはシンプルで拡張が容易で、消費するリソースも少なくて済みます。

オーディオ技術チームによって開発されたニューラルネットワークベースの音声スーパーセグメンテーションアルゴリズムは、追加のデータ送信を必要とせず、リアルタイムストリーミングで狭帯域音声信号の高品質な帯域幅拡張を実行できます。

2.アルゴリズムのパフォーマンス

 

3.アプリケーションシナリオ

PSTNシナリオなどの一部の低帯域幅シナリオでは、相手の音声が「息苦しい」と認識されることがよくあります。これは主に、送信者が送信する音声信号のサンプリングレートが低く、高周波成分を含む音声情報がないためです。 。音声超解像技術は、音声の高周波成分を再構築することにより、より高い音質とより良いリスニング体験を顧客に提供します。次の表は、音声スーパースコアの一般的な使用シナリオを示しています。

 

4.スーパースコア効果の表示

AliSSRリアルタイムスーパースコアアルゴリズムは、多言語および多性別をサポートします。以下は、男子英語と女子中国語のそれぞれのテストコーパスのスーパースコアの前後の効果を示しています。主観的な聴力の観点から、オーバースコア後の声は明らかに狭帯域よりも「明るい」です。オーディオ。その中で、AliSSR(e2eバージョン)はオーバースコア後に明るくなります。AliSSR(軽量バージョン)よりも優れています。

サンプル1:英語

 

ビデオの3つのオーディオは、ナローバンドスピーチ、AliSSRによってリアルタイムで処理されるe2eバージョン、および軽量バージョンです。

サンプル2:中国語

 

ビデオの3つのオーディオは、ナローバンドスピーチ、AliSSRによってリアルタイムで処理されるe2eバージョン、および軽量バージョンです。

音声スーパーディビジョンテクノロジーには、PSTN、オンライン会議、古い音声の復元、メディア制作の分野で幅広い実装シナリオがあります。ニューラルネットワークの助けを借りて、AliSSR音声スーパースコアアルゴリズムは、リソースをほとんど消費せずに、より「明るくリアルな」音質体験をリアルタイムでユーザーに提供できます。将来的には、オーディオテクノロジーは、より強力な超解像機能を構築し続け、音声から音楽、すべてのタイプのオーディオまで、狭い周波数帯域から完全な周波数帯域までのすべてのシナリオをカバーする超解像テクノロジーを探求します。

Alibaba Cloud Video Cloud Audio技術チームは、ディープラーニングと信号処理に基づくオーディオテクノロジーを引き続き調査し、オンライン会議などのシナリオでより明確で極端なオーディオエクスペリエンスを提供します。


参照

[1] J.Makhoul、M.Berouti、「音声コーディングシステムにおける高周波再生」、Proceedings of ICASSP、1979年、vol。4、pp。428–431。

[2] B. Iser、G。Schmidt、「音声信号の帯域幅拡張のためのアプリケーションにおけるニューラルネットワークとコードブック」、Proc。Interspeech、2003年。

[3] Kehuang Li、Chin-Hui Lee、「音声帯域幅拡張へのディープニューラルネットワークアプローチ」、Proceedings of ICASSP、2015年、4395〜4399ページ。

[4] J. Abel、T。Fingscheidt、「広帯域スペクトルエンベロープ推定のためのディープニューラルネットワークを使用した人工音声帯域幅拡張」、IEEE Transactionson Acoustics、Speech、and Signal Processing、vol。26、いいえ。1、pp。71–83、2017。

[5] V. Kuleshov、SZ Enam、およびS. Ermon、「ニューラルネットを使用したオーディオ超解像」、ICLRのワークショップ、2017年。

[6] Heming Wang、Deliang Wang、「CNNベースの音声超解像の時間周波数損失」、Proceedings of ICASSP、2020年。

[7] Eskimez、Sefik Emreetal。「スピーチ超解像のための敵対的訓練。」IEEE Journal of Selected Topics in Signal Processing 13(2019):347-358。[8] Li、Y.、Tagliasacchi、M.、Rybakov、 "Real-Time Speech Frequency Bandwidth Extension"、ICASSP、2021。


オーディオとビデオテクノロジーの最も注目に値するパブリックアカウントである「VideoCloudTechnology」は、Alibaba Cloudの最前線から実用的な技術記事を毎週プッシュし、オーディオとビデオの分野で一流のエンジニアとコミュニケーションをとることができます。公式アカウントのバックグラウンドで[Technology]に返信すると、Alibaba Cloudビデオクラウド製品テクノロジー交換グループに参加し、業界のリーダーとオーディオおよびビデオテクノロジーについて話し合い、最新の業界情報を入手できます。

{{o.name}}
{{m.name}}

おすすめ

転載: my.oschina.net/u/4713941/blog/5501241