この一連のブログ投稿はディープ ラーニング/コンピューター ビジョン論文のメモです。転載する場合は出典を明記してください。
标题:カクテル パーティーで聞きたい: 音声分離のための話者に依存しないオーディオビジュアル モデル
链接:カクテル パーティーで聞きたい: 音声分離のための話者に依存しないオーディオビジュアル モデル: ACM Transactions on Graphics: Vol 37, No 4
訳者注:原題の「Cocktail Party」は文字通り「カクテルパーティー」を意味します。「カクテルパーティー効果」は聴覚科学で一般的に使用される用語で、複雑な音響環境を処理する人間の驚くべき能力に由来する概念です。背景の他の騒音を無視しながら、人々が特定の会話や音に集中できる、忙しいカクテル パーティーのシーンを考えてみましょう。これは私たちが通常「傾聴の選択的注意」または「カクテルパーティー効果」と呼んでいるものです。
認可ステートメント:
個人的または教室での使用を目的として、この作品の一部またはすべてのデジタル コピーまたはハード コピーを取得するライセンス。ただし、営利または商業的利益を目的とせず、コピーにこの通知が記載されており、最初のページに全体が引用されていることが条件となります。 、無料で。この作品に含まれるサードパーティ コンポーネントの著作権は尊重されなければなりません。その他の用途については、作品の所有者/作者にお問い合わせください。
© 2018 所有者/著者による著作権。
0730-0301/2018/8-ART112
https://doi.org/10.1145/3197517.3201357
まとめ
我々は、他の話者や背景雑音などの混合音から単一の音声信号を分離するための統合「視聴覚モデル」を提案します。音声のみを入力として使用してこのタスクを解決することは非常に困難であり、孤立した音声信号をビデオ内の話者と相関付けることは不可能です。
この論文では、このタスクを解決するために視覚信号と聴覚信号の両方を組み込んだディープネットワークベースのモデルを提案します。
視覚的な機能を使用して、シーン内の目的の話者に音声を「集中」させ、音声分離の品質を向上させます。共同オーディオビジュアル モデルをトレーニングするために、ウェブ全体からの数千時間のビデオ クリップで構成される新しいデータセットである AVSpeech を導入します。
ユーザーが分離したいビデオ内の人物の顔を指定することのみを必要とし、私たちの方法が古典的な音声分離タスクだけでなく、激しいインタビュー、騒がしいバー、叫び声をあげる子供たちを含む現実世界の状況の両方でも機能することを実証します。
混合音声の場合、私たちの方法は最先端の音声のみの音声分離よりも大幅に優れています。
さらに、私たちのモデルは話者に依存しない (一度トレーニングすれば、どの話者にも適用できる) ため、話者に依存する最近のオーディオ/ビデオ音声分離方法 (対象の話者が別のモデルをトレーニングする必要がある) よりも優れた結果が得られます。
追加のキーワードとフレーズ
オーディオビジョン、ソース分離、音声強調、深層学習、畳み込みニューラル ネットワーク (CNN)、双方向長短期記憶 (BLSTM)
ACM 参照フォーマット
アリエル・エフラット、インバル・モッセリ、オラン・ラング、タリ・デケル、ケビン・ウィルソン、アヴィナタン・ハシディム、ウィリアム・T・フリーマン、マイケル・ルービンスタイン。2018. カクテル パーティーで聞きたい: 音声分離のための話者に依存しないオーディオビジュアル モデル。ACMトランス。グラフ。37、4、第 112 条 (2018 年 8 月)、11 ページ。https://doi.org/10.1145/3197517.3201357
1 はじめに
騒がしい環境では、人間は単一の音源に聴覚の注意を集中させながら、他のすべての音や騒音を低減(「ミュート」)する驚くべき能力を持っています。神経系がカクテルパーティー効果として知られるこの偉業をどのように達成するか [Cherry 1953] は依然として不明である。
しかし、研究では、話者の顔を観察することで、騒がしい環境での知覚の曖昧さを解決する能力を高めることができることが示されています[Golumbic et al. 2013; Ma et al. 2009]。この論文では、この機能の計算式を実装します。
最初の著者は Google でインターンとしてこの仕事をしました
自動音声分離、つまり入力オーディオ信号を個々の音声ソースに分離することは、オーディオ処理の文献で広く研究されています。この問題は本質的に悪条件であるため、合理的な解決策を得るには事前の知識または特別なマイク構成が必要です [McDermott 2009]。
さらに、音声のみの音声分離には、ラベル順列問題[Hershey et al. 2016] という根本的な問題があります。分離された各オーディオ ソースをビデオ内の対応する話者に関連付ける簡単な方法はありません [Hershey et al. 2016; Hershey et al. 2016; Yu et al. 2017]。
この研究では、ビデオ内の特定の話者に「焦点を当てる」ためのオーディオとビジュアルの共同アプローチを提案します。入力ビデオを再結合して、他のすべての音を抑制しながら、特定の人物に関連する音声を強調することができます (図 1)。
図 1: ビデオ内の話者固有の音声を分離および強化するためのモデルを提案します。(a) 入力は、1 人以上の人が話しているビデオ (フレーム + オーディオ トラック) であり、対象の音声が他の話者や背景ノイズによって妨げられています。(b) オーディオとビジュアルの特徴が抽出され、統合オーディオビジュアル音声分離モデルに入力されます。出力は、入力オーディオ トラックをクリーンな音声トラックに分解したもので、ビデオ内で検出された人物ごとに 1 つのトラック© になります。これにより、特定の人物の声を強調し、他のすべての音声を抑制したビデオを合成できます。
私たちのモデルは、新しいデータセット AVSpeech からの数千時間のビデオ クリップを使用してトレーニングされています。写真の「Stand-Up」(「Crosstalk」に類似)ビデオ(a)は、Team Coco によって提供されています。
具体的には、ビデオの各フレームで録音された音声と検出された顔のタイトなクロップの混合を入力として受け取り、その混合を検出された各発話の独立したオーディオ ストリームにセグメント化するニューラル ネットワーク ベースのモデルを設計してトレーニングします。
このモデルは、視覚情報を活用して、(音声のみを使用した結果と比較して) ソース分離の品質を向上させ、分離された音声トラックをビデオ内に表示される話者に関連付けます。ユーザーが行う必要があるのは、ビデオ内のどの顔を聞きたいかを指定することだけです。
モデルをトレーニングするために、YouTube から 290,000 本の高品質の講義、TED トーク、チュートリアル ビデオを収集し、これらのビデオから、話者が見える約 4,700 時間の音声ときれいな音声 (妨害音のない) の音声を自動的に抽出しました (図 2) )。
図 2: AVSpeech データセット: まず、290,000 の高品質のオンライン演説および講義ビデオを収集します (a)。これらのビデオから、クリーンな音声 (音楽、リスナーの声、その他の話者が混在していない) とフレーム内に話者が見えるクリップを抽出します (処理の詳細については、セクション 3 と図 3 を参照)。その結果、4,700 時間のビデオ クリップが作成され、それぞれのビデオ クリップは、気を散らすことなく、1 人の人物が話しているものでした (b)。データはさまざまな人物、言語、顔のポーズをカバーしており、分布は © に示されています (年齢と頭の角度は自動分類器を使用して推定。言語は YouTube メタデータに基づいています)。データセット内のビデオ ソースの詳細なリストについては、プロジェクトの Web ページを参照してください。
この新しいデータセットを AVSpeech と呼びます。次に、このデータセットを使用して、「合成カクテル パーティー」用のトレーニング セットを生成しました。これは、きれいなスピーチを含む顔のビデオと、他の話者のオーディオ トラックおよび背景ノイズを混合したものです。
最近の音声分離法に対する私たちの方法の利点を 2 つの方法で実証します。
- 私たちは、純粋な音声の混合に対して、最先端の音声のみの方法と比較して優れた結果を実証します。
- 重なり合う音声と背景ノイズを含む混合物における現実世界のシナリオで、拡張されたサウンド ストリームを生成するモデルの機能を実証します。
要約すると、私たちの論文は2 つの主要な貢献を提供します。
- 古典的な音声分離タスクにおいて音声のみのモデルや視聴覚モデルよりも優れたパフォーマンスを発揮し、困難な自然シナリオに適用できる音声と映像の音声分離モデル。私たちの知る限り、私たちの論文は、話者に依存しない視聴覚音声分離モデルを提案した最初の論文です。
- 新しい大規模なオーディオビジュアル データセットである AVSpeech は慎重に収集、処理されており、可聴音がビデオ内に映る 1 人の人物のものであり、気を散らす音声の背景が含まれていないビデオ クリップが含まれています。このデータセットにより、音声分離において最先端の結果を達成することができ、研究コミュニティによるさらなる研究につながる可能性があります。
データセット、入力および出力ビデオ、その他の補足資料はすべて、プロジェクト Web ページ http://look-to-listen.github.io/ で入手できます。
2 関連作品
音声分離とオーディオビジュアル信号処理の分野における関連研究を簡単にレビューします。
音声分離: 音声分離はオーディオ処理における基本的な問題であり、ここ数十年にわたって広範な研究が行われてきました。
-
Wang と Chen [2017] は、音声ノイズ除去 [Erdogan et al., 2015; Weninger et al., 2015] および音声分離タスクのための、最近の深層学習ベースの音声のみの方法の包括的な概要を提供しました。
-
前述の **ラベル順列問題** に対処する 2 つのアプローチが、モノラルの場合におけるスピーカーに依存しないマルチスピーカー分離のために最近登場しました。
-
Hershey et al. [2016] は、識別的にトレーニングされた音声埋め込みを使用して、異なる音声ソースをクラスタリングして分離する「ディープ クラスタリング」と呼ばれる方法を提案しました。
-
Hershey et al. [2016] も、順列のない損失関数または順列不変の損失関数のアイデアを導入しましたが、それがあまりうまく機能しないことがわかりました。Isik et al. [2016] と Yu et al. [2017] は、その後、順列不変損失関数を使用してディープ ニューラル ネットワークをトレーニングする方法を提案しました。
-
-
音声のみの方法と比較したこの方法の利点は次の 3 つです。
-
私たちのオーディオビジュアルモデルが、最先端のオーディオのみのモデルよりも高品質の分離結果を達成することを示します。
-
私たちの方法は、バックグラウンドノイズが混在する複数のスピーカーの存在下でも良好に機能しますが、私たちの知る限り、この問題は音声のみのアプローチでは十分に対処できていません。
-
私たちは、これまで独立して扱われてきた、音声の分離と音声信号の対応する顔との関連付けという 2 つの音声処理問題に共同で取り組みます [Hoover et al., 2017; Hu et al., 2015; Monaci, 2011]。
-
視聴覚信号処理: 音声関連のさまざまな問題を解決するために、ニューラル ネットワークを使用した聴覚信号と視覚信号のマルチモーダルな融合への関心が高まっています。
-
これには以下が含まれます
-
視聴覚音声認識 [Feng et al., 2017; Mroueh et al., 2015; Ngiam et al., 2011]
-
無音ビデオからの音声またはテキストの予測 (読唇術) [Chung et al., 2016; Ephrat et al., 2017]
-
視覚信号と音声信号からの言語の教師なし学習 [Harwath et al., 2016]。
これらの方法は、同時に記録された視覚信号と聴覚信号の間の自然な同期関係を利用します。
-
-
オーディオビジュアル(AV)方式も使用されています
-
音声の分離と強調 [Hershey et al., 2004; Hershey and Casey, 2002; Khan, 2016; Rivet et al., 2014]。
-
Casanovas et al. [2010] は、AV ソースの分離にスパース表現を使用していますが、ソースの特徴を学習するためにアクティブな領域のみに依存し、すべてのオーディオ ソースが画面上に表示されていると想定しているため、限界があります。
-
最近のアプローチでは、ニューラル ネットワークを使用してこのタスクを実行します。
-
Hou et al. [2018] は、入力口領域の再構成とともにノイズ除去された音声スペクトログラムを出力するマルチタスク CNN ベースのモデルを提案しています。
-
Gabbay et al. [2017] は、ターゲット話者の他の音声サンプルが背景ノイズとして使用されるビデオで音声拡張モデルをトレーニングしました。これは、彼らが「ノイズ不変トレーニング」と呼んだスキームです。並行して、Gabbay et al. [2018] は、ビデオからオーディオへの合成アプローチを使用して、ノイズの多いオーディオをフィルタリングしました。
-
-
これらの AV 音声分離方法の主な制限は、話者固有であることです。これは、専用のモデルを話者ごとに個別にトレーニングする必要があることを意味します。これらの作品は設計において特定の選択を行っていますが、特定のスピーカーの状況への適用が制限されています。しかし、話者に依存しない AV モデルがこれまで広範に研究されていない主な理由は、そのようなモデルをトレーニングするのに十分な大規模かつ多様なデータセットが不足しているためであると推測しています。そして、これはまさに私たちが構築し、この作業で利用できるようにしたデータセットが持っているものです。
-
-
私たちの知る限り、私たちの論文は、無関係な話者の AV 音声分離の問題に取り組んだ最初の論文です。私たちのモデルは、これまでに見たことのない話者、トレーニング セットにない言語を話す人を分離して強化することができます。さらに、私たちの研究は、これまでのオーディオのみおよびオーディオビジュアルの音声分離の研究ではカバーされていなかった設定で、実際の例で高品質の音声分離を実証するという点でユニークです。
-
最近、ディープ ニューラル ネットワークを使用したオーディオビジュアル音源分離の問題に対処する、独立した同時並行の研究が数多く発表されています。
-
[Owens and Efros 2018] は、オーディオ ストリームとビジュアル ストリームが時間的に一致しているかどうかを予測するようにネットワークをトレーニングしました。この自己教師ありモデルから抽出された学習された特徴は、画面上と画面外の話者音源分離モデルを調整するために使用されます。
-
Aforas et al. [2018] は、ネットワークを使用して、ノイズ除去された音声スペクトログラムの大きさと位相を予測することによって音声強調を実行します。
-
Zhao et al. [2018] および Gao et al. [2018] は、複数の画面内でオブジェクト (楽器など) の音を分離するという密接に関連する問題に取り組んでいます。
-
視聴覚データセット: 既存の AV データセットのほとんどには、少数の主題と限られた語彙の単語のみが含まれるビデオが含まれています。
-
例えば、
-
CUAVE データセット [Patterson et al., 2002] には、0 ~ 9 の数字を 5 回ずつ言う 36 人の被験者が含まれており、各数字の例は合計 180 個あります。
-
もう 1 つの例は、Hou et al. [2018] によって導入された Mandarin Sentences データセットで、これにはネイティブ スピーカーが話した 320 の中国語文のビデオ録画が含まれています。各文には 10 個の漢字が含まれており、音素は均等に分布しています。
-
TCD-TIMIT データセット [Harte and Gillen、2015] には 60 人のボランティア講演者が含まれており、講演者ごとに約 200 のビデオが含まれています。話者は、TIMIT データセット [S Garofolo et al.、1992] からさまざまな文を読み上げ、前方を向いた 30 度の角度でカメラを使用して記録しました。
以前の研究と比較するために、これら 3 つのデータセットの結果を評価します。
-
-
最近では、Chung et al. [2016] は、さまざまな異なる話者の単語とより多くの語彙を含む大規模な読唇文 (LRS) データセットを導入しました。ただし、このデータセットは公開されていないだけでなく、LRS ビデオ内の音声がクリーンであることは保証されていません。これは、音声の分離および拡張モデルをトレーニングするために重要です。
3 AVSpeech データセット
干渉するバックグラウンド信号のない音声クリップを含む、新しい大規模なオーディオビジュアル データセットを紹介します。クリップの長さは 3 ~ 10 秒の間で異なり、各クリップでビデオに表示される唯一の顔と音声内の音声は同じ話者のものです。データセットには合計で約 4,700 時間のビデオ クリップが含まれており、約 150,000 人の異なる話者をカバーし、さまざまな人物、言語、顔のポーズをカバーしています。図 2 は、いくつかの代表的なフレーム、音声波形、およびいくつかのデータセット統計を示しています。
このような大規模なコーパスを人間による広範なフィードバックに頼らずに組み立てることが重要であるため、データセットを自動的に収集するというアプローチを採用しました。当社のデータセット作成パイプラインは、講義 (TED トークなど) やチュートリアル ビデオを含む、約 290,000 本の YouTube ビデオからスニペットを収集しました。このようなチャネルの場合、ほとんどのビデオには 1 人のスピーカーのみが含まれており、ビデオとオーディオは通常高品質です。
データセット作成プロセス。図 3 に示すように、データセット収集プロセスには 2 つの主要な段階があります。
図 3:データセット作成のためのビデオとオーディオの処理: (a) 顔の検出と追跡を使用して、ビデオから音声セグメント候補を抽出し、顔がぼやけているか、十分に前向きでないフレームを拒否します。(b) 音声の信号対雑音比を推定することにより、ノイズの多い音声を含むパッセージを廃棄します (セクション 3 を参照)。グラフは、音声 SNR 推定器の精度を示すことを目的としています (したがって、データセットの品質を反映しています)。実際の音声 SNR を、既知の SNR レベルでクリーンな音声と非音声ノイズを合成することによって生成された混合の予測 SNR と比較します。予測された SNR 値 (デシベル単位) は、各 SNR ビンで生成された 60 個の混合物にわたって平均化され、エラーバーは 1 標準偏差を表します。予測音声 SNR が 17dB 未満のパッセージを破棄します (図の灰色の破線でマーク)。
- まず、Hoover et al. [2017] の話者追跡手法を使用して、ビデオ内で人々が活発に話していて顔が見える箇所を検出しました。顔フレームがぼやけていたり、照明が不十分であったり、ポーズが極端であったりする場合、顔フレームはセグメントから破棄されます。セグメント内の顔フレームの 15% 以上が欠落している場合、セグメント全体が破棄されます。この段階では、分類器と図 2 の統計の計算にGoogle Cloud Vision API 1を使用しました。
-
データセット構築の 2 番目のステップは、クリーンで気が散る音声のみが含まれるように音声セグメントを調整することです。これらのパッセージはトレーニング時のグラウンド トゥルースとして機能するため、これは重要なコンポーネントです。各段落の音声信号対雑音比 (主要な音声信号と残りの音声信号の間の対数比) を推定することで、この最適化ステップを自動化します。
-
事前トレーニングされた音声のみの音声ノイズ除去ネットワークを使用し、ノイズ除去された出力をクリーンな信号の推定値として使用して、特定のパッセージの音声 SNR を予測します。このネットワークのアーキテクチャは、セクション 5 で実装された、LibriVox パブリック ドメインのオーディオ ブックからの音声データに基づいてトレーニングされた、音声のみの音声強調ベースラインのアーキテクチャと同じです。
-
推定された音声 SNR が特定のしきい値を下回るパッセージについては、それらを破棄します。このしきい値は、既知の SNR2 のさまざまなレベルで純粋な音声と非音声干渉ノイズの合成混合を使用して経験的に設定されました。これらの合成混合物はノイズ除去ネットワークに供給され、推定された (ノイズ除去された) 音声 SNR がグラウンド トゥルース SNR と比較されます (図 3(b) を参照)。
-
- SNR が低い場合、平均して、音声の推定 SNR は非常に正確であり、生のノイズ レベルの優れた予測因子と見なすことができることがわかりました。ただし、SNR が高くなると(つまり、元の音声信号にほとんど干渉がないパッセージ)、ノイズ信号が弱くなるため、この推定器の精度は低下します。図 3(b) に示すように、この弱化が発生するしきい値は約 17dB です。このフィルターを通過した 100 個のクリップのランダム サンプルを聞いたところ、重大なバックグラウンド ノイズが含まれていないことがわかりました。補足資料のデータセットからのサンプル ビデオ クリップを提供します。
4 視聴覚音声分離モデル
オーディオビジュアル音声分離モデル
大まかに言うと、私たちのモデルは、検出された顔とノイズの多い音声のビジュアル ストリームを入力として受け取り、それぞれが検出された顔に対応する複雑なスペクトル マスクを出力するマルチストリーム アーキテクチャで構成されています (図 4 を参照)。
図 4:私たちのモデルのマルチストリーム ニューラル ネットワーク アーキテクチャ: ビジュアル ストリームは、ビデオの各フレームで検出された顔のサムネイルを入力として受け取りますが、オーディオ ストリームは、音声と音声の混合を含むビデオのオーディオ トラックを入力として受け取ります。背景ノイズ。Visual Flow は、事前トレーニングされた顔認識モデルを使用して各サムネイルの顔埋め込みを抽出し、拡張畳み込みニューラル ネットワークを使用して視覚的特徴を学習します。オーディオ ストリーミングでは、まず入力信号の短時間フーリエ変換 (STFT) を計算してスペクトログラムを取得し、次に同様の拡張畳み込みニューラル ネットワークを使用してオーディオ表現を学習します。次に、学習された視覚的特徴と音声的特徴を連結することによって、共同のオーディオビジュアル表現が作成され、これが双方向 LSTM と 3 つの完全に接続されたレイヤーによってさらに処理されます。ネットワークは各話者の複雑なスペクトル マスクを出力します。これにノイズ入力が乗算され、再び波形に変換されて、各話者の個別の音声信号が取得されます。
次に、ノイズ入力スペクトルにマスクが乗算され、その結果、各話者に個別の音声信号が生成され、他のすべての干渉信号が抑制されます。
4.1 ビデオとオーディオの表現
特徴を入力します。私たちのモデルは、視覚的特徴と聴覚的特徴の両方を入力として受け入れます。
-
複数の話者が含まれるビデオ クリップの場合、既製の顔検出器 (Google Cloud Vision API など) を使用して各フレーム内の顔を検索します (各クリップが 3 秒で、フレームが 1 フレームであると仮定すると、話者ごとに合計 75 個の顔のサムネイル)レートは 25 FPS)。
-
事前トレーニングされた顔認識モデルを使用して、検出された各顔サムネイルの顔埋め込みを抽出します。Cole et al. [2016] が顔を合成するために使用したものと同様に、ネットワーク内の最下位の空間不変層を使用します。その理論的根拠は、これらの埋め込みは、照明などの画像間の無関係な変動を除去しながら、何百万もの顔を認識するために必要な情報を保存するということです。
-
実際、最近の研究では、これらの埋め込みから顔の表情を復元できることも示されています[Rudd et al., 2016]。顔画像の生のピクセルも使用してみましたが、パフォーマンスの向上は見られませんでした。
-
-
オーディオ特徴に関しては、3 秒のオーディオ クリップの短時間フーリエ変換 (STFT) を計算します。各時間周波数 (TF) ビンには、入力として受け取る複素数の実数部と虚数部が含まれています。大きなオーディオが小さなオーディオをかき消してしまうのを防ぐために、**べき乗則圧縮**を実行します。同じ処理がノイズの多い信号とクリーンな基準信号に適用されます。
-
推論時に、分離モデルを任意の長さのビデオ セグメントに適用できます。私たちのモデルは、フレーム内で複数の話者の顔が検出された場合に、複数の顔のストリームを入力として受け入れることができます。これについては後で説明します。
出力。私たちのモデルの出力は、きれいな音声と背景の妨害の間の時間と周波数の関係を記述する乗算スペクトル マスクです。
-
以前の研究 [Wang and Chen 2017; Wang et al. 2014] では、乗算マスクは、スペクトルの大きさを直接予測したり、時間領域波形を直接予測したりするなど、他のオプションよりも効果的であることが観察されました。音源分離の文献にはマスクベースのトレーニング目標が多数存在します [Wang and Chen 2017]。私たちはそのうちの 2 つ、比率マスク (RM) と複素比率マスク (cRM) を試しました。
-
理想的な比率マスク (RM) は、クリーン スペクトルとノイズ スペクトルの間の大きさの比率として定義され、0 と 1 の間で正規化されます。
- レシオ マスクを使用する場合、予測レシオ マスクとノイズ スペクトルの大きさの点ごとの乗算を実行し、その後、ノイズの生の位相とともに短時間逆フーリエ変換 (ISTFT) を実行して、ノイズ除去された波形を取得します。 [王と陳 2017]。
-
複雑な理想比率マスクは、複雑なクリーン スペクトルとノイズ スペクトルの間の比率として定義されます。複素理想比率マスクには実数部と虚数部があり、これらは実数領域で別々に推定されます。複素マスクの実数部と虚数部は通常 -1 から 1 の間にありますが、シグモイド関数圧縮を使用してこれらの複素マスク値を 0 から 1 の間に制限します [Wang et al. 2016]。
- 複素理想比マスクを使用してマスキングを実行する場合、予測された複素理想比マスクとノイズ スペクトルの複素乗算を実行し、その結果を逆短時間フーリエ変換 (ISTFT) することによって、ノイズ除去された波形が取得されます。
-
-
検出された話者の顔の複数のストリームが入力として与えられると、ネットワークは各話者と背景のディストラクタに対して個別のマスクを出力します。ほとんどの実験では cRM を使用します。これは、cRM を使用した音声出力の品質が RM よりも大幅に優れていることが判明したためです。2 つの方法の定量的な比較については、表 6 を参照してください。
表 6:アブレーションの研究: 2 つのクリーン スピーカーが混合されているシーンのさまざまな部分を分離する際のモデルの寄与を調査します。信号対残響比 (SDR) はノイズ抑制とよく相関し、ViSQOL は音声品質のレベルを示します (詳細については付録のセクション A を参照)。
4.2 ネットワークアーキテクチャ
図 4 は、ネットワーク内の個々のモジュールの概要を示しており、ここで詳しく説明します。
オーディオおよびビジュアル ストリーム。
-
私たちのモデルのオーディオ ストリーミング部分は、表 1 にリストされているパラメーターを持つ拡張畳み込み層で構成されています。
表 1: モデルのオーディオ ストリームを構成する拡張畳み込み層。
-
モデルのビジュアル フローは、入力顔の埋め込み (セクション 4.1 を参照) を処理するために使用され、表 2 で詳述する拡張畳み込みで構成されます。ビジュアル ストリーム内の「空間」畳み込みと拡張は、(1024 次元の顔埋め込みチャネルではなく) 時間軸上で実行されることに注意してください。
表 2: モデルの視覚的なフローを構成する拡張畳み込み層。
-
オーディオ信号とビデオ信号の間のサンプリング レートの違いを補償するために、スペクトログラムのサンプリング レート (100 Hz) と一致するようにビジュアル ストリームの出力をアップサンプリングします。これは、各視覚特徴の時間次元で単純な最近傍補間を使用することによって行われます。
オーディオビジュアルフュージョン(AVフュージョン)。
-
オーディオ ストリームとビジュアル ストリームは、各ストリームの特徴マップを連結することによってマージされます。
-
次に、BLSTM (双方向長期短期記憶ネットワーク) に供給され、その後に完全に接続された 3 つの層が続きます。
-
最終出力は、各入力スピーカーの複雑なマスク (実数と虚数の 2 つのチャネル) で構成されます。
-
対応するスペクトログラム (対応するスペクトログラム) は、ノイズを含む入力のスペクトログラムと出力マスクの複素乗算によって取得されます。
-
電力圧縮後のクリーンなスペクトログラムと強化されたスペクトログラム間の二乗誤差 (L2 損失) は、ネットワークをトレーニングするための損失関数として使用されます。
-
最終的な出力波形は、セクション 4.1 で説明したように、逆短時間フーリエ変換 (ISTFT) によって取得されます。
複数のスピーカー。
私たちのモデルは、ビデオから複数の可視スピーカーを分離することをサポートしており、図 4 に示すように、各スピーカーはビジュアル ストリームによって表されます。
-
表示される話者の数ごとに、別の専用モデルをトレーニングします。例えば、
- 1 つのビジュアル ストリームを持つモデルは、1 人の可視スピーカーに対応します
- 2 つの可視スピーカーに対応するデュアル ビジュアル ストリームを備えたモデル
等
-
すべてのビジュアル ストリームは、畳み込み層で同じ重みを共有します。この場合、BLSTM に進む前に、各ビジュアル ストリームの学習された特徴が学習されたオーディオの特徴と連結されます。
-
実際には、単一のビジュアル ストリームを入力として受け取るモデルは、スピーカーの数が不明であるか、専用のマルチスピーカー モデルを使用できない一般的なケースに使用できることは注目に値します。
4.3 実装の詳細
私たちのネットワークは、波形と STFT 変換を制御するための操作を含む TensorFlow を使用して実装されています。
-
ReLU 活性化関数は、sigmoid を使用する最後の層 (マスク) を除くすべてのネットワーク層に従います。
-
バッチ正規化はすべての畳み込み層の後に実行されます[ Ioffe and Szegedy 2015]。
-
大量のデータでトレーニングし、過剰適合の可能性がないため、ドロップアウトは使用しませんでした。
-
6 サンプルのバッチサイズを使用します。
-
そして、Adam オプティマイザーを 500 万ステップ (バッチ、バッチ) のトレーニングに使用します。
-
学習率は3 ⋅ 1 0 − 5 3\cdot10^{−5}です。3⋅1 0− 5、180 万ステップごとに半分になります。
すべてのオーディオ データは 16kHz にリサンプリングされ、ステレオ オーディオは左チャンネルのみを使用してモノラルに変換されます。25 ミリ秒のハン ウィンドウ長、10 ミリ秒のジャンプ長、および 512 の FFT サイズを使用して STFT を計算すると、257 × 298 × 2 257\times298\times2となります。257×298×2 つのスカラー入力オーディオ機能。p = 0.3とします。p=0.3p=0.3(A0.3A^{0.3}あ0.3,其中 A A Aはべき乗則圧縮の入出力オーディオ スペクトログラムです。
トレーニングと推論の前に、埋め込みを削除または複製することにより、すべてのビデオの顔の埋め込みを 25 フレーム/秒 (FPS) で再サンプリングします。これにより、75 個の顔の埋め込みで構成される入力ビジュアル ストリームが生成されます。顔の検出、位置合わせ、および品質評価は、 Cole et al. [2016] によって説明されたツールを使用して実行されました。特定のサンプルで欠落したフレームが見つかった場合、面の埋め込みの代わりにゼロ ベクトルを使用します。
5 実験と結果
私たちはさまざまな条件下でメソッドをテストし、その結果を最先端のオーディオのみ (AO) およびオーディオビジュアル (AV) の音声分離および強化手法と定量的および定性的に比較します。
音声のみとの比較。
-
現在、公的に利用できる最先端の音声のみの音声強調/分離システムは存在せず、音声のみの音声の強調をトレーニングおよび評価するために公的に利用できるデータセットは比較的少数です。
-
オーディオ信号のブラインドソース分離に関する広範な文献があります [Comon and Jutten 2010] が、これらの技術のほとんどは複数のオーディオ チャネル (複数のマイク) を必要とするため、私たちのタスクには適していません。
これらの理由から、オーディオ ストリーミング モデルと同様のアーキテクチャを備えたオーディオのみのベースライン音声強化モデルを実装します(図 4、ビジュアル ストリーミングが削除された場合)。音声強調の研究で広く使用されている CHiME-2 データセットでトレーニングおよび評価した場合 [Vincent et al. 最先端のモノラルでも 14.75 dB の結果が得られます。
したがって、私たちのオーディオのみの拡張モデルは、ほぼ最先端のベースラインであると考えられています。
分離結果を最先端の音声のみのモデルと比較するために、Yu et al. [2017] によって導入された順列不変トレーニング法を実装します。
- この方法を使用して音声を分離するには、録音内に存在するソースの数に関する事前の知識と、対応する話者の顔への各出力チャンネルの手動割り当てが必要であることに注意してください (当社の AV 方法ではこれが自動的に行われます)。
セクション 5.1 のすべての合成実験でこれらの AO 手法を使用し、セクション 5.2 で実際のビデオの品質比較を行います。
最近のオーディオビジュアル手法との比較。
-
既存の視聴覚音声分離および強調方法は話者固有であるため、合成混合音声の実験 (セクション 5.1) でそれらと簡単に比較したり、自然ビデオ (セクション 5.1) でそれらを実行したりすることはできません (セクション 5.2)。
-
ただし、これらの論文のビデオでモデルを実行することにより、既存のデータセットでこれらの方法との定量的な比較を示します。この比較についてはセクション 5.3 で詳しく説明します。
-
さらに、付録資料では定性的な比較を示しています。
5.1 合成混合音声の定量分析
いくつかの異なるモノラル音声分離タスクのデータを生成しました。各タスクには、音声と非音声の背景雑音の独自の組み合わせが必要です。以下では、トレーニング データの各バリアントの生成プロセスと、最初からトレーニングされる各タスクの関連モデルについて説明します。
-
いずれの場合も、クリーンな音声クリップと対応する顔画像は AVSpeech (AVS) データセットからのものです。
-
音声以外の背景ノイズは、YouTube ビデオから手動で注釈が付けられたクリップで構成される大規模なデータセットである AudioSet [Gemmeke et al. 2017] から発生します。
分離された音声の品質は、BSS Eval ツールボックス [Vincent et al. 2006] の信号対歪み比 (SDR) の改善を使用して評価されました。これは、音声の分離品質を評価するために一般的に使用される指標です (付録のセクション A を参照)。詳細)。
データセットから重複しない 3 秒のセグメントを抽出しました (たとえば、10 秒のセグメントは 3 つの 3 秒のセグメントを生成します)。すべてのモデルと実験に対して 150 万の合成混合音声を生成しました。各実験では、生成されたデータの 90% がトレーニング セットとして使用され、残りの 10% がテスト セットとして使用されます。パラメーターの調整や早期停止は実行されなかったため、検証セットは使用しませんでした。
1 つのスピーカー + ノイズ (1 つのスピーカー + ノイズ (1S+ノイズ))。
これは、正規化されていないクリーンな音声とAudioSet ノイズを線形的に結合することによってトレーニング データが生成される古典的な音声強調タスクです
。 Mixi = AVS j + 0.3 ∗ A audio Set Mix_i=AVS_j+0.3*AudioSet_kミックス_ _私は=AVS_ _j+0.3∗オーディオ設定_ _ _ _ _ _k
で:
- AVS j AVS_jAVS_ _j是 A V S AVS A V Sでの発話
- オーディオセット AudioSet_kオーディオ設定_ _ _ _ _ _k是オーディオセット AudioSet大きさが0.3倍されたAudioSet内のフラグメント
- mixiミックスアイミックス_ _私は合成混合音声データセットからのサンプルです
通常、ノイズの固有周波数は音声の固有周波数から十分に分離されているため、この場合、音声のみのモデルは非常にうまく機能します。当社のオーディオビジュアル (AV) モデルは、オーディオのみ (AO) ベースラインと同等のパフォーマンスを示し、どちらも 16dB SDR を備えています (表 3 の最初の列を参照)。
表 3:定量分析と音声のみの音声の分離と強化との比較: さまざまなネットワーク構成を使用した場合の、入力ビジュアル ストリームの数の関数としての品質向上 (SDR の場合、詳細については付録のセクション A を参照)。最初の行 (音声のみ) は、最先端の音声分離モデルの実装であり、ベースラインとして示されています。
2 つのクリーン スピーカー (2 つのクリーン スピーカー (2S クリーン))。
この 2 人の話者分離シナリオに使用されるデータセットは、AVS データセット内の 2 人の異なる話者からのきれいな音声を混合することによって生成されました。
Mixi = AVS j + AVS k Mix_i = AVS_j + AVS_kミックス_ _私は=AVS_ _j+AVS_ _k
で:
-
AVS j AVS_jAVS_ _j和 A V S k AVS_k AVS_ _kデータセット内のさまざまなソースビデオからのクリーンな音声サンプルです
-
mixiミックスアイミックス_ _私は合成混合音声データセットからのサンプルです
AO ベースライン モデルに加えて、このタスクに関して 2 つの異なる AV モデルをトレーニングします。
-
(i) 入力として 1 つのビジュアル ストリームのみを受け入れ、対応するノイズ除去された信号のみを出力するモデル。
この場合、推論時に、ネットワークを介して 2 つの順方向パス (各話者に 1 つ) を実行することによって、各話者のノイズ除去された信号が取得されます。このモデルの SDR 結果を平均すると、AO ベースライン モデルと比較して 1.3dB 改善されます (表 3 の 2 番目の列)。
-
(ii) 2 人の話者からの視覚情報を、2 つの別々の視覚ストリームの形式で入力として同時に受け入れます (セクション 4 で説明)。
この場合、出力は 2 つのマスク (各話者に 1 つずつ) で構成され、推論に必要な前方パスは 1 つだけです。このモデルを使用すると、さらに 0.4dB ブーストされ、合計 10.3dB SDR が向上します。直感的には、2 つのビジュアル ストリームを共同処理すると、より多くの情報がネットワークに提供され、分離タスクにより多くの制約が課されるため、結果が向上します。
図 5 は、オーディオのみのベースライン モデルと 2 スピーカーのオーディオビジュアル モデルを含む、入力 SDR に基づいたこのタスクの改善された SDR を示しています。
図 5:入力 SDR と改善された出力 SDR : これは、2 つのクリーンなスピーカー (2S クリーン) を分離するタスクにおける分離パフォーマンス (SDR 改善) を元の (ノイズのある) SDR の関数として示す散布図です。各ポイントは、テスト セット内の単一の 3 秒のオーディオビジュアル サンプルに対応します。
2 つのスピーカー + ノイズ (2 つのスピーカー + ノイズ (2S + ノイズ))。
ここでは、2 人の話者と音声以外の背景雑音の混合物から 1 人の話者の音声を分離するタスクを考えます。私たちの知る限り、この視聴覚の課題はこれまで解決されていません。トレーニング データは、2 人の異なる話者のクリーンな音声 (2S クリーン タスクによって生成されたもの) をAudio Set AudioSet と組み合わせることによって取得されます。A u d i o Setのバックグラウンド ノイズが混合されます。 Mixi = AVS j + AVS k + 0.3 ∗ A audio S etl Mix_i=AVS_j+AVS_k+0.3 * AudioSet_l
ミックス_ _私は=AVS_ _j+AVS_ _k+0.3∗オーディオ設定_ _ _ _ _ _私
この場合、スピーカーとバックグラウンド ノイズごとに 1 つずつ、合計 3 つの出力を使用して AO ネットワークをトレーニングします。
さらに、2 つの異なる構成でモデルをトレーニングしました。
-
ビジュアル ストリームを入力として受け取るもの
- ビジュアルストリームのAVモデルの構成は、以前の実験のモデル(i)と同じです。
-
もう 1 つは 2 つのビジュアル ストリームを入力として受け取ります
- 2 つのビジュアル ストリームの AV モデルは、各スピーカーとバックグラウンド ノイズに 1 つずつ、合計 3 つの信号を出力します。
表 3 (3 番目の列) に示すように、オーディオのみのベースライン モデルと比較して、1 つのビジュアル ストリームの AV モデルでは 0.1 dB、2 つのビジュアル ストリームの AV モデルでは 0.5 dB の SDR ゲインがあり、全体的な SDR の向上につながります。 10.6dBアップ。
図 6 は、このタスクからのサンプル セグメントの推論されたマスクと出力のスペクトログラム、およびそのノイズを含む入力と実際のスペクトログラムを示しています。
図 6: 入力音声と出力音声の例: 上の行は、2 人の話者と背景雑音を含むトレーニング データのセグメントの音声スペクトログラム (a) と、各話者ごとに分離された実際のスペクトログラム (b、c) を示しています。下の行には、結果を示します。各話者ごとに異なる色のスペクトログラムに重ね合わせた、セグメントのこの方法で推定されたマスク (d)、および各話者の対応する出力スペクトルの図 (e、f)。
3 つのクリーン スピーカー (3 つのクリーン スピーカー (3S クリーン))。
このタスクのデータセットは、3 人の異なる話者からのきれいな音声を混合することによって作成されます。
Mixi = AVS j + AVS k + AVS l Mix_i=AVS_j+AVS_k+AVS_lミックス_ _私は=AVS_ _j+AVS_ _k+AVS_ _私
前のタスクと同様に、1 つ、2 つ、および 3 つのビジュアル ストリームを入力として受け取り、それぞれ 1 つ、2 つ、および 3 つの信号を出力する AV モデルをトレーニングします。
単一のビジュアル ストリームでも、AV モデルの方が AO モデルよりも 0.5dB 優れていることがわかります。2 つのビジュアル ストリームの構成でも AO モデルに同様の改善がもたらされますが、3 つのビジュアル ストリームを使用すると 1.4dB のゲインが得られ、全体的な SDR の改善は 10dB になります (表 3 の 4 列目)。
同性間の分離。
これまでの音声分離手法の多くは、同じ性別の音声を含む音声混合物を分離しようとすると、パフォーマンスが低下します [Delfarah and Wang 2017; Hershey et al. 2016]。
表 4 は、さまざまな性別の組み合わせに応じた分離の質を示しています。
表 4: **同性間の分離。**この表の結果は 2S クリーン実験によるもので、私たちの方法が同性混合から音声を分離するのに堅牢であることを示しています。
興味深いことに、私たちのモデルは女性と女性の組み合わせで最高のパフォーマンス (わずかに上回っています) を示していますが、他の組み合わせでも良好なパフォーマンスを示しており、性別に対して堅牢であることが示されています。
5.2 現実世界での音声分離
現実世界のシナリオでモデルの音声分離機能を実証するために、白熱した議論やインタビュー、騒々しいバー、叫び声をあげる子供たちを含むさまざまなビデオでモデルをテストしました (図 7 を参照)。
図 7:現実の音声分離: 現実世界のさまざまなシナリオに私たちの方法を適用した自然ビデオの代表的なフレームを示しています。すべてのビデオと結果は付録資料に記載されています。「Undisputed Interview」ビデオは Fox Sports 提供。
各シーンでは、ビデオ内に表示される話者の数と一致する多数のビジュアル入力ストリームを使用してモデルをトレーニングしました。
- たとえば、2 つのスピーカーが表示されるビデオの場合は、2 スピーカー モデルを使用します。
私たちのネットワーク アーキテクチャは特定の時間的永続性を決して強制しないため、ビデオごとに単一の順方向パスを使用して分離を実行します。これはモデルでサポートされている操作です。
- これにより、ビデオの短いセグメントの結果を後処理して統合する必要がなくなります。
これらの例にはきれいなリファレンス オーディオがないため、これらの結果と他の方法との比較は定性的に評価され、付録資料に示されています。
私たちの方法はリアルタイム処理をサポートしていないこと、そして現在、私たちの音声強調はビデオの後処理段階により適していることは注目に値します。
-
付録資料の合成ビデオ「Double Brady」は、音声に含まれる特徴的な音声周波数だけでは音声の分離が難しいため、モデルによる視覚情報の活用を強調しています。
-
「ノイズの多いバー」シナリオでは、私たちの方法では、低 SNR ミックスから音声を分離する際にいくつかの制限があります。この場合、背景雑音はほぼ完全に抑制されますが、出力音声品質は大幅に低下します。
- Sun et al. [2017] は、この制限は分離にマスクベースの方法を使用することに起因しており、この場合、ノイズ除去されたスペクトログラムを直接予測することがこの問題を克服するのに役立つ可能性があることを観察しました。
- 音声強調の古典的なケース、つまり 1 人の話者と音声以外の背景雑音では、AV モデルは強力な AO ベースライン モデルと同様の結果を達成します。これは、ノイズの固有周波数が音声の固有周波数から明確に分離されていることが多く、視覚情報を追加してもさらなる識別力が得られなかったためではないかと考えられます。
5.3 以前のオーディオビジュアル音声分離および強化作業との比較
私たちの評価は、私たちの結果を以前のオーディオビジュアル音声分離および強化作業の結果と比較することなしには完了しません。
表 5 には、それぞれの論文で説明されている評価プロトコルと評価基準を使用した、3 つの異なる視聴覚データセット (マンダリン、TCD-TIMIT、CUAVE、セクション 2 を参照) の比較が含まれています。
表 5:既存の視聴覚音声分離研究との比較: 元の論文で報告されている評価プロトコルと目的のスコアを使用して、いくつかのデータセットでの音声分離および強調の結果を以前の研究の結果と比較します。以前の方法は話者に依存するのに対し、私たちの結果は一般的な話者に依存しないモデルを使用して得られることに注意することが重要です。
報告された客観的な品質スコアは、BSS 評価ツールキットの PESQ [Rix et al. 2001]、STOI [Taal et al. 2010]、および SDR [Vincent et al. 2006] です。これらの比較の定性的な結果は、プロジェクト ページで入手できます。
これらの以前の方法では、データセット内の各話者に特化したモデル (話者依存) を個別にトレーニングする必要があったのに対し、データの評価は汎用の AVS データセットを使用して実行されたことに注意することが重要です。私たちはこれらの特定の講演者に遭遇したことはありませんが、私たちの結果は元の論文で報告されたものよりも大幅に優れており、私たちのモデルの強力な一般化能力を示しています。
5.4 ビデオ文字起こしへの適用
この文書では音声の分離と強化に焦点を当てていますが、私たちの方法は自動音声認識 (ASR) やビデオの書き起こしにも使用できます。
この概念をテストするために、次の定性実験を実行しました。「Stand-Up」ビデオの音声分離結果を YouTube にアップロードし、 YouTube の自動字幕生成 3の結果と、音声が混在した元のビデオの対応する部分によって生成された結果と比較しました。オリジナルの「スタンドアップ」ビデオの一部では、ASR システムはビデオの混合音声セグメントに字幕を生成できませんでした。結果には両方の発言者の発言が含まれており、読みにくい文章になってしまいました。
ただし、結果として得られる字幕は、分離された音声の結果よりもはるかに正確です。完全なキャプション付きビデオを付録資料に掲載します。
5.5 追加の分析
また、モデルの動作とそのさまざまなコンポーネントが結果に与える影響をより深く理解するために、広範な実験も実施しました。
アブレーション研究
モデルのさまざまな部分の寄与をより深く理解するために、2 つのクリーンな話者の混合 (2S Clean) から音声を分離するタスクでアブレーション実験を実行しました。いくつかの結合されたネットワーク モジュール (ビジュアルおよびオーディオ ストリーム、BLSTM および FC レイヤー) を除去することに加えて、さまざまな出力マスク (大きさ) などのより高いレベルの変動も調査し、学習されたビジュアル特徴を各タイム ステップに削減します。 、および異なる融合方法(早期融合)。
-
初期の融合モデルでは、個別のビジュアル ストリームとオーディオ ストリームは存在せず、入力時に 2 つのモダリティを組み合わせていました。これはスルーです
- 各ビジュアル エンベディングの次元は、完全に接続された 2 つのレイヤーを使用して、各タイム ステップでのスペクトログラムの次元と一致するように縮小されます。
- 次に、視覚的特徴は 3 番目のスペクトログラム「チャネル」としてスタックされ、これを達成するためにモデル全体で共同処理されます。
-
表 6 は、アブレーション実験の結果を示しています。この表には、SDR と人間の聞き手による音声品質の平均オピニオン スコア (MOS) を近似するように設計された客観的な尺度である ViSQOL [Hines et al., 2015] を使用した評価が含まれています。ViSQOL スコアは、テスト データのランダムな 2000 サンプルのサブセットに基づいて計算されます。SDR は分離された音声の残留ノイズの量と密接に関係しているのに対し、ViSQOL は出力音声の品質をよりよく特徴付けることがわかりました。これらのスコアの詳細については、付録のパート A を参照してください。「Oracle」RM および cRM は、セクション 4.1 で説明したように、それぞれグラウンド トゥルースの実数値スペクトログラムと複素数値スペクトログラムを使用して取得されたマスクです。
この研究の最も興味深い発見は、複素数値のマグニチュード マスクの代わりに実数値のマグニチュード マスクを使用した場合のMOS の減少と、以下で説明するように、視覚情報をタイム ステップごとに 1 つのスカラーに圧縮することの予期せぬ有効性です。
ボトルネック機能
翻訳者注: ボトルネックと呼ばれる理由は、ボトルネック層がボトルネックのように見えるためです。
アブレーション解析では、各タイム ステップで視覚情報をスカラーに圧縮するネットワーク (「ボトルネック (cRM)」) が、完全モデル (「完全モデル (cRM)」) とほぼ同じパフォーマンスを発揮することがわかりました (わずか 0.5dB)違い)。後者では、タイム ステップごとに 64 個のスカラーが使用されます。
モデルは視覚信号をどのように利用していますか? (モデルは視覚信号をどのように利用しますか?)
私たちのモデルは、入力視覚表現として顔の埋め込みを使用します (セクション 4.1)。これらの高レベルの特徴でキャプチャされた情報を理解し、音声を分離するためにモデルの入力フレーム内のどの領域が使用されるかを判断したいと考えています。
この目的を達成するために、視覚ネットワーク受容野視覚化のための [Zeiler and Fergus 2014; Zhou et al. 2014] と同様のプロトコルに従います。私たちはこのプロトコルを 2D 画像から 3D (時空) ビデオまで拡張します。
より具体的には、スライディング ウィンドウ方式で時空間オクルーダー (11px × 11px × 200ms patch 4 ) を使用します。各時空間オクルーダーについて、オクルージョンされたビデオをモデルにフィードし、結果として得られる音声分離結果 Socc を元の (オクルージョンされていない) ビデオの結果 Sori と比較します。
ネットワーク出力間の差異を定量化するには、オクルージョンのない結果を「信号」とみなして SNR を使用します5。つまり、時空オクルーダーごとに次の計算を行います:
E = 10 ⋅ log ( S orig 2 ( S occ − S orig ) 2 ) (1) E=10\cdot{log(\frac{ {
S_ {orig} }^2}{(S_{occ}-S_{orig})^2})}\tag{1}E=10⋅l o g (( Sオク−Sまたは私は)2Sまたは私は2)( 1 )
ビデオ内のすべての時空間オクルーダーに対してこのプロセスを繰り返すと、各フレームのヒートマップが作成されます。視覚化のために、ヒートマップをビデオの最大 SNR に正規化します。
E ~ = E max − E \tilde{E}=E_{max}−EE~=Eマックス_−E
在E ~ \チルダ{E}E~、大きな値は音声分離結果に大きな影響を与えるオクルーダに対応します。
図 8 に、いくつかのビデオの代表的なフレームのヒートマップ結果を示します (完全なヒートマップ ビデオはプロジェクト ページで入手できます)。予想通り、顔領域への最大の寄与は主に口の周囲にありますが、視覚化の結果は、目や頬などの他の領域もある程度寄与していることを示しています。
図 8: ** モデルは視覚信号をどのように利用しますか? **いくつかのビデオからの代表的な入力フレームにヒートマップを重ねて表示し、青 (寄与度が低い) から赤 (寄与度が高い) まで、音声分離結果に対するさまざまな領域の寄与度 (デシベル単位、テキストを参照) を視覚化します。
視覚情報の欠落による影響
さらに、視覚的な埋め込みを徐々に削除することで、モデルへの視覚情報の寄与をテストします。具体的には、最初にモデルを実行し、3 秒間のビデオ全体を評価に使用します。その結果、視覚的な情報を伴う音声分離の品質が得られます。次に、段落の両端の埋め込みを段階的に破棄し、2 秒、1 秒、0.5 秒、0.2 秒の視覚期間の分離品質を再評価します。
結果を図 9 に示します。興味深いことに、パッセージ内の視覚的な埋め込みの最大 2/3 を破棄しても、音声分離品質は平均で 0.8 dB しか低下しません。これは、このモデルが、現実世界のシナリオで頭の動きや遮蔽によって発生する可能性のある視覚情報の欠落に対して堅牢であることを示しています。
図 9:視覚情報の欠落の影響: この図は、2 クリーン スピーカー (2S クリーン) シーンでの出力 SDR 改善に対する視覚情報の継続時間の影響を示しています。サンプルの両端から入力面の埋め込みを徐々にゼロにすることによってテストします。結果は、少数の視覚フレームでも高品質の分離には十分であることを示しています。
結論は
我々は、単一チャネルの話者に依存しない音声分離のための新しいオーディオビジュアルニューラルネットワークモデルを提案します。私たちのモデルは、背景ノイズのあるマルチスピーカーの混合など、いくつかの困難なシナリオでも良好に機能します。モデルをトレーニングするために、私たちは、目に見える話者と Web から収集したクリーンな音声の何千時間ものビデオ クリップで構成される新しいオーディオビジュアル データセットを作成しました。私たちのモデルは音声分離に関して最先端の結果を達成し、ビデオキャプションと音声認識における潜在的なアプリケーションを示しています。また、モデルとその個々のコンポーネントの動作と有効性を分析する広範な実験も行っています。全体として、私たちの方法は、視聴覚音声の分離と強化において重要な進歩を示しています。
ありがとう
このプロジェクトを支援してくださった Yossi Matias 氏と Google Research Israel 氏、そして貴重なご意見をくださった John Hershey 氏に感謝いたします。また、フィギュアのデザインとビデオ編集を手伝ってくれた Arkady Ziefman 氏と、結果に含まれるビデオ コンテンツのライセンス供与を手伝ってくれた Rachel Soh 氏にも感謝します。
参考文献
- T. Afouras、JS Chung、A. Zisserman、2018 年、ダイアログ: ディープ オーディオビジュアル スピーチ強化、arXiv:1804.04121。
- Anna Llagostera Casanovas、Gianluca Monaci、Pierre Vandergheynst、Rémi Gribonval、2010 年「疎な冗長表現に基づくブラインド オーディオビデオ ソース分離」、IEEE Transactions on Multimedia 12、5 (2010)、358–371。
- E コリン・チェリー、1953 年、「片耳と両耳による音声認識のいくつかの実験」、アメリカ音響学会誌、25、5 (1953)、975–979。
- Joon Son Chung、Andrew W. Senior、Oriol Vinyals、Andrew Zisserman. 2016. 野生の読唇文. CoRR abs/1611.05358 (2016).
- Forrester Cole、David Belanger、Dilip Krishnan、Aaron Sarna、Inbar Mosseri、William T Freeman. 2016. 顔のアイデンティティの特徴から正規化された顔を合成する. CVPR'17.
- Pierre Comon および Christian Jutten、2010 年、ブラインドソース分離ハンドブック: 独立成分分析とアプリケーション、学術出版局。
- Masood Delfarah および DeLiang Wang. 2017. 残響環境におけるマスキングベースのモノラル音声分離の特性評価. オーディオ、音声、および言語処理に関する IEEE/ACM トランザクション 25 (2017)、1085–1094。
- Ariel Ephrat、Tavi Halperin、Shmuel Peleg、2017 年、サイレント ビデオからの音声再構成の改善、ICCV 2017 コンピュータ ビジョン ワークショップ。
- Hakan Erdogan、John R. Hershey、Shinji渡辺、Jonathan Le Roux. 2015. Deep Recurrent Neural Networks を使用した位相敏感および強化された音声分離. 音響、音声、および信号処理に関する IEEE 国際会議 (ICASSP) (2015)。
- Weijiang Feng、Naiyang Guan、Yuan Li、Xiang Zhang、および Zhigang Luo. 2017. マルチモーダルリカレントニューラルネットワークによるオーディオビジュアル音声認識. 2017 International Joint Conference on Neural Networks (IJCNN). IEEE、681–688。
- Aviv Gabbay、Ariel Ephrat、Tavi Halperin、および Shmuel Peleg. 2018. Seeing Through Noise: Speaker Separation and Enhancement using Visually-Derived Speech. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) (2018) 。
- Aviv Gabbay、Asaph Shamir、Shmuel Peleg、2017 年、アンチノイズ トレーニングを使用した視覚的音声強化、arXiv プレプリント arXiv:1711.08789 (2017)。
- R. Gao、R. Feris、K. Grauman. 2018. Learning to Separate Object Sounds by Watching Unlabeled Videos. arXiv プレプリント arXiv:1804.01665 (2018).
- Jort F. Gemmeke、Daniel PW Ellis、Dylan Freedman、Aren Jansen、Wade Lawrence、R. Channing Moore、Manoj Plakal、Marvin Ritter. 2017. Audiosets: An Ontology and Human Labeling Dataset of Audio Events. IEEE 2017 ICASSP Conference Proceedings.
- Elana Zion Golumbic、Gregory B Cogan、Charles E. Schroeder、および David Poeppel。2013 年。「カクテル パーティー」で視覚入力が聴覚皮質の選択的音声エンベロープの追跡を強化。神経科学、米国神経科学学会公式ジャーナル 33 第 4 号 ( 2013)、1417–26。
- ナオミ・ハートとエオイン・ギレン. 2015. TCD-TIMIT: 連続音声のオーディオビジュアルコーパス. IEEE Transactions on Multimedia 17, 5 (2015), 603–615.
- David F. Harwath、Antonio Torralba、James R. Glass、2016 年、視覚的コンテキストによる音声言語の教師なし学習、NIPS にて。
- John Hershey、Hagai Attias、Nebojsa Jojic、および Trausti Kristjansson、2004 年、音声処理のためのオーディオビジュアル グラフィカル モデル、音響、音声、および信号処理に関する IEEE 国際会議 (ICASSP)。
- John R Hershey と Michael Casey、2002 年、隠れマルコフ モデルを使用したオーディオビジュアル音の分離、神経情報処理システムの進歩、1173 ~ 1180 年。
- John R. Hershey、Zhuo Chen、Jonathan Le Roux、および Shinji Monday. 2016. Deep Clustering: Discriminative Embeddings for Segmentation and Separation. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) (2016)、31–35 。
- Andrew Hines、Eoin Gillen、Damien Kelly、Jan Skoglund、Anil C. Kokaram、Naomi Harte. 2015. ViSQOLAudio、低ビットレート コーデックの客観的なオーディオ品質指標. Journal of the Acoustical Society of America, Vol. 137, No. 6 (2015 )、EL449–55。
- Andrew Hines および Naomi Harte. 2012. ニューラル グラフ類似性指数を使用して測定された音声明瞭度の予測. Speech Communication 54 No. 2 (2012), 306–320. DOI: http://dx.doi.org/10.1016/j.specom.2011.09.004
- Ken Hoover、Sourish Chaudhuri、Caroline Pantofaru、Malcolm Slaney、Ian Sturdy. 2017. 音と向き合う: 話者を識別するためのビデオ内のオーディオとビジュアル信号の融合. CoRR abs/1706.00079 (2017).
- Jen-Cheng Hou、Syu-Siang Wang、Ying-Hui Lai、Jen-Chun Lin、Yu Tsao、Hsiu-Wen Chang、および Hsin-Min Wang. 2018. マルチモーダル深層畳み込みニューラル ネットワークを使用したオーディオ ビジョン音声強化。」IEEE Transactions on Emerging Topics in Computational Intelligence、Vol. 2、No. 2 (2018)、117–128。
- Yongtao Hu、Jimmy SJ Ren、Jingwen Dai、Chang Yuan、Li Xu、および Wenping Wang. 2015. In-Depth Multimodal Speaker Naming. マルチメディアに関する第 23 回 ACM 国際会議議事録. ACM、1107–1110.
- Sergey Ioffe および Christian Szegedy. 2015. バッチ正規化: 内部共変量シフトを低減することによるディープ ネットワーク トレーニングの加速. 機械学習に関する国際会議。
- Yusuf Isik、Jonathan Le Roux、Zhuo Chen、Shinji渡辺、John R Hershey. 2016. ディープ クラスタリングを使用したモノラル マルチスピーカー分離. Interspeech (2016), 545–549.
- ファヒーム・カーン、2016 年、オーディオビジュアルスピーカーの分離、博士論文。イースト・アングリア大学。
- Wei Ji Ma、Xiang Zhou、Lars A. Ross、John J. Foxe、および Lucas C. Parra、2009 年、中程度のノイズにおける高次元特徴空間のベイズ解釈による語彙認識、PLoS ONE Volume 4 (2009)、233 –252。
- ジョシュ H マクダーモット、2009 年、カクテル パーティー問題、Current Biology 19 No. 22 (2009)、R1024–R1027。
- Gianluca Monaci、2011 年、リアルタイム オーディオのためのビジュアル スピーカー ローカリゼーションの開発、信号処理カンファレンス、第 19 回ヨーロッパ 2011。IEEE、1055–1059。
- Youssef Mroueh、Etienne Marcheret、および Vaibhava Goel. 2015. 視聴覚音声認識のための深層マルチモーダル学習. 2015 年の音響、音声、および信号処理に関する IEEE 国際会議 (ICASSP)。IEEE、2130–2134。
- Jiquan Ngiam、Aditya Khosla、Mingyu Kim、Juhan Nam、Honglak Lee、Andrew Y. Ng. 2011. マルチモーダルディープラーニング. ICML にて。
- Andrew Owens と Alexei A Efros. 2018. 自己監視型多感覚機能を使用した視聴覚シーン分析。(2018年)。
- Eric K. Patterson、Sabri Gurbuz、Zekeriya Tufekci、および John N. Gowdy、2002 年「モバイル スピーカー、話者に依存しない特徴の調査と CUAVE マルチモーダル音声コーパスのベースライン結果」、Eurasian Journal of Advanced Signal Processing Volume 2002 (2002) 、1189–1201。
- Jie Pu、Yannis Panagakis、Stavros Petridis、および Maja Pantic. 2017. 低ランクとスパース性を使用したオーディオビジュアル オブジェクトの位置特定と分離. 2017 年の IEEE 音響、音声、および信号処理に関する国際会議 (ICASSP)。IEEE、2901 ~ 2905。
- Bertrand Rivet、Wenwu Wang、Syed M. Naqvi、および Jonathon A. Chambers. 2014. オーディオビジュアル スピーカーの分離: 主要な方法の概要. IEEE Journal of Signal Processing 31 (2014), 125–134.
- Antony W Rix、John G Beerends、Michael P Hollier、Andries P Hekstra. 2001. 音声品質の知覚評価 (PESQ) - 電話ネットワークとコーデックの音声品質評価の新しいアプローチ。音響、音声および信号処理」2001 インターナショナルカンファレンス (ICASSP'01)。IEEE、749–752。
- Ethan M Rudd、Manuel Günther、および Terrance E Boult. 2016. Moon: A Mixed-Objective Optimization Network for Recognizing Facial Attributes. コンピュータ ビジョンに関する欧州会議。スプリンガー、19–35。
- JS Garofolo、Lori Lamel、WM Fisher、Jonathan Fiscus、D S. Pallett、N L. Dahlgren、V Zue、1992 年、TIMIT 音声コーパス。(1992年)。
- Lei Sun、Jun Du、Li-Rong Dai、および Chin-Hui Lee. 2017. LSTM-RNN ベースの多目的深層学習音声強化。HSCMAで。
- Cees H Taal、Richard C Hendriks、Richard Heusdens、Jesper Jensen、2010 年、時間周波数重み付けされた雑音のある音声に対する短期客観的明瞭度の測定。2010 年の IEEE 音響、音声、信号処理に関する国際会議 (ICASSP)。IEEE、4214 ~ 4217。
- Emmanuel Vincent、Jon Barker、Shinji渡辺、Jonathan Le Roux、Francesco Nesta、Marco Matassoni. 2013. 第 2 回「The Bell」音声分離と認識チャレンジ: データセット、タスク、およびベースライン。2013 年の IEEE 音響、音声、信号処理に関する国際会議 (ICASSP)。IEEE、126–130。
- E. Vincent、R. Gribonval、C. Fevotte、2006 年、ブラインド音源分離のパフォーマンス測定。『Transactions in Audio, Speech, and Language Processing』、Vol. 14、No. 4 (2006)、1462–1469。
- DeLiang Wang および Jitong Chen. 2017. 深層学習に基づく教師付き音声分離: 調査。CoRR abs/1708.07524 (2017)。
- Yuxuan Wang、Arun Narayanan、DeLiang Wang、2014 年、教師付き音声分離のトレーニング目標。IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP) 22 No. 12 (2014)、1849 ~ 1858 年。
- Ziteng Wang、Xiaofei Wang、Xu Li、Qiang Fu、および Yonghong Yan、2016 年、理想的なマスクの Oracle パフォーマンス調査。IWAENCにて。
- Felix Weninger、Hakan Erdogan、Shinji渡辺、Emmanuel Vincent、Jonathan Le Roux、John R. Hershey、および Björn W. Schuller. 2015. LSTM リカレント ニューラル ネットワークを使用した音声強化とノイズに強い ASR へのその応用。LVA/ICAにて。
- Dong Yu、Morten Kolbæk、Zheng-Hua Tan、Jesper Jensen. 2017. 話者に依存しない複数話者の音声分離のためのディープ モデルの順列不変トレーニング。音響、音声、信号処理に関する IEEE 国際会議 (ICASSP) (2017)、241–245。
- Matthew D Zeiler および Rob Fergus、2014 年、畳み込みネットワークの視覚化と理解。欧州コンピュータビジョンカンファレンスにて。スプリンガー、818–833。
- Hang Zhao、Chuang Gan、Andrew Rouditchenko、Carl Vondrick、Josh McDermott、Antonio Torralba. 2018. ピクセルのサウンド。(2018年)。
- Bolei Zhou、Aditya Khosla、Agata Lapedriza、Aude Oliva、Antonio Torralba、2014 年、ディープ シーン CNN の出現オブジェクト検出器。arXiv プレプリント arXiv:1412.6856 (2014)。
参考文献
- T. アフォーラス、J.S. チャン、A. ジッサーマン。2018. 会話: 深いオーディオビジュアル音声の強化。arXiv:1804.04121。
- アンナ・ラゴステラ・カサノバス、ジャンルカ・モナッチ、ピエール・ヴァンデルハインスト、レミ・グリボンヴァル。2010. まばらな冗長表現に基づくブラインド視聴覚ソース分離。IEEE Transactions on Multimedia 12、5 (2010)、358–371。
- E・コリン・チェリー。1953年。片耳と両耳による音声認識に関するいくつかの実験。アメリカ音響学会誌 25、5 (1953)、975–979。
- ジュン・ソン・チョン、アンドリュー・W・シニア、オリオール・ヴィニャルズ、アンドリュー・ジッサーマン。2016. 野生の読唇文。CoRR abs/1611.05358 (2016)。
- フォレスター・コール、デヴィッド・ベレンジャー、ディリップ・クリシュナン、アーロン・サーナ、インバール・モッセリ、ウィリアム・T・フリーマン。2016. 顔の同一性特徴から正規化された顔を合成します。CVPR'17にて。
- ピエール・コモンとクリスチャン・ユッテン。2010. ブラインドソース分離ハンドブック: 独立成分分析と応用。学術報道機関。
- マスード・デルファラーとデリアン・ワン。2017. 残響状況におけるマスキングベースのモノラル音声分離の機能。音声、音声、および言語処理に関する IEEE/ACM トランザクション 25 (2017)、1085–1094。
- アリエル・エフラット、タビ・ハルペリン、シュムエル・ペレグ。2017. サイレントビデオからの音声再構築の改善。ICCV 2017 におけるオーディオビジュアル メディアのコンピューター ビジョンに関するワークショップ。
- ハカン・エルドアン、ジョン・R・ハーシー、渡辺信治、ジョナサン・ル・ルー。2015. 深層リカレント ニューラル ネットワークを使用した、位相敏感で認識強化された音声分離。音響、音声および信号処理に関する IEEE 国際会議 (ICASSP) (2015)。
- Weijiang Feng、Naiyang Guan、Yuan Li、Xiang Zhang、Zhigang Luo。2017. マルチモーダルリカレントニューラルネットワークによる視聴覚音声認識。ニューラル ネットワーク (IJCNN) では、2017 年国際共同会議で。IEEE、681–688。
- アビブ・ガベイ、アリエル・エフラト、タビ・ハルペリン、シュムエル・ペレグ。2018. ノイズを透視する: 視覚的に導出された音声を使用した話者の分離と強化。音響、音声および信号処理に関する IEEE 国際会議 (ICASSP) (2018)。
- アビブ・ガベイ、アサフ・シャミール、シュムエル・ペレグ。2017. ノイズ不変トレーニングを使用した視覚的音声の強化。arXiv プレプリント arXiv:1711.08789 (2017)。
- R. ガオ、R. フェリス、K. グローマン。2018. ラベルのないビデオを見てオブジェクトの音を分離する方法を学びます。arXiv プレプリント arXiv:1804.01665 (2018)。
- ジョルト・F・ゲメケ、ダニエル・PW・エリス、ディラン・フリードマン、アレン・ジャンセン、ウェイド・ローレンス、R・チャニング・ムーア、マノージ・プラカル、マービン・リッター。2017. オーディオ セット: オーディオ イベントのオントロジーと人間がラベル付けしたデータセット。プロセスで。IEEE ICASSP 2017。
- エラナ・ザイオン・ゴルンビッチ、グレゴリー・B・コーガン、チャールズ・E・シュローダー、デヴィッド・ポッペル。2013. 視覚入力により、「カクテル パーティー」における聴覚皮質の選択的音声エンベロープ追跡が強化されます。神経科学ジャーナル: 神経科学学会の公式ジャーナル 33 4 (2013)、1417–26。
- ナオミ・ハートとエオイン・ギレン。2015. TCD-TIMIT: 連続音声の視聴覚コーパス。IEEE Transactions on Multimedia 17、5 (2015)、603–615。
- デビッド・F・ハーワス、アントニオ・トラルバ、ジェームス・R・グラス。2016. 視覚的なコンテキストを使用した音声言語の教師なし学習。生理学研究所にて。
- ジョン・ハーシー、ハガイ・アティアス、ネボイサ・ヨジッチ、トラウスティ・クリスチャンソン。2004. 音声処理のための視聴覚グラフィック モデル。IEEE 音響・音声・信号処理国際会議 (ICASSP) にて。
- ジョン・R・ハーシーとマイケル・ケイシー。2002. 隠れマルコフ モデルによる視聴覚音の分離。神経情報処理システムの進歩。1173 ~ 1180 年。
- ジョン・R・ハーシー、ヂュオ・チェン、ジョナサン・ル・ルー、渡辺信治。2016. ディープ クラスタリング: セグメンテーションと分離のための識別的な埋め込み。音響、音声および信号処理に関する IEEE 国際会議 (ICASSP) (2016)、31 ~ 35。
- アンドリュー・ハインズ、エオイン・ギレン、ダミアン・ケリー、ヤン・スコグランド、アニル・C・コカラム、ナオミ・ハート。2015. ViSQOLAudio: 低ビットレート コーデックの客観的なオーディオ品質指標。アメリカ音響学会誌 137 6 (2015)、EL449–55。
- アンドリュー・ハインズとナオミ・ハート。2012. ニューログラム類似性指数測定を使用した音声明瞭度の予測。スピーチコミュ。54、2 (2012 年 2 月)、306–320。DOI: http://dx.doi.org/10.1016/j.specom.2011.09.004
- ケン・フーバー、サワーリッシュ・チョードリ、キャロライン・パントファル、マルコム・スレイニー、イアン・スターディ。2017. 声に顔を付ける: ビデオ全体でオーディオ信号とビジュアル信号を融合して話者を決定します。CoRR abs/1706.00079 (2017)。
- Jen-Cheng Hou、Syu-Siang Wang、Ying-Hui Lai、Jen-Chun Lin、Yu Tsao、Hsiu-Wen Chang、Hsin-Min Wang。2018. マルチモーダル深層畳み込みニューラル ネットワークを使用したオーディオビジュアル音声強化。計算知能における新たなトピックに関する IEEE トランザクション 2、2 (2018)、117–128。
- Yongtao Hu、Jimmy SJ Ren、Jingwen Dai、Chang Yuan、Li Xu、Wenping Wang。2015. ディープマルチモーダルスピーカーのネーミング。マルチメディアに関する第 23 回 ACM 国際会議の議事録。ACM、1107–1110。
- セルゲイ・イオッフェとクリスチャン・セゲディ。2015. バッチ正規化: 内部共変量シフトを削減することでディープ ネットワーク トレーニングを加速します。ICMLでは。
- ユスフ・イシク、ジョナサン・ル・ルー、ヂュオ・チェン、渡辺信治、ジョン・R・ハーシー。2016. ディープ クラスタリングを使用した単一チャンネルのマルチスピーカーの分離。インタースピーチ (2016)、545–549。
- ファヒーム・カーン。2016. オーディオビジュアルスピーカーの分離。博士号 論文。イースト・アングリア大学。
- ウェイ・ジー・マー、シャン・ジョウ、ラーズ・A・ロス、ジョン・J・フォックス、ルーカス・C・パラ。2009. 読唇術は、適度な騒音下で最も単語認識を補助します: 高次元特徴空間を使用したベイズ説明。PLoS ONE 4 (2009)、233 – 252。
- ジョシュ・H・マクダーモット。2009年。カクテルパーティー問題。現在の生物学 19、22 (2009)、R1024–R1027。
- ジャンルカ・モナチ。2011. リアルタイムの視聴覚スピーカー位置特定に向けて。2011 年の第 19 回ヨーロッパの信号処理カンファレンスにて。IEEE、1055–1059。
- ユセフ・ムロウ、エティエンヌ・マルシュレ、ヴァイバヴァ・ゴエル。2015. 視聴覚音声認識のための深層マルチモーダル学習。音響、音声および信号処理 (ICASSP)、2015 IEEE 国際会議で。IEEE、2130–2134。
- Jiquan Ngiam、Aditya Khosla、Mingyu Kim、Juhan Nam、Honglak Lee、Andrew Y. Ng 2011. マルチモーダルディープラーニング。ICMLでは。
- アンドリュー・オーエンズとアレクセイ・A・エフロス。2018. 自己監視型多感覚機能による視聴覚シーン分析。(2018年)。
- エリック・K・パターソン、サブリ・ガーブズ、ゼケリヤ・トゥフェクシ、ジョン・N・ゴーディ。2002. CUAVE マルチモーダル音声コーパスを使用した移動話者、話者に依存しない特徴調査、およびベースライン結果。EURASIP J.Adv. シグ。手順 2002 年 (2002 年)、1189 ~ 1201 年。
- ジエ・プー、ヤニス・パナガキス、スタブロス・ペトリディス、マジャ・パンティッチ。2017. 低ランクとスパース性を使用したオーディオビジュアルオブジェクトの位置特定と分離。音響、音声および信号処理 (ICASSP)、2017 IEEE 国際会議で。IEEE、2901 ~ 2905。
- バートランド・リベット、ウェンウー・ワン、サイド・M・ナクヴィ、ジョナソン・A・チェンバース。2014. 視聴覚音声ソース分離: 主要な方法論の概要。IEEE 信号処理マガジン 31 (2014)、125–134。
- アントニー・W・リックス、ジョン・G・ビーレンズ、マイケル・P・ホリアー、アンドリース・P・ヘクストラ。2001. 音声品質の知覚評価 (PESQ) - 電話ネットワークとコーデックの音声品質評価のための新しい方法。音響、音声、および信号処理、2001 年、議事録 (ICASSP'01)。2001 IEEE 国際会議、Vol. 2. IEEE、749–752。
- イーサン・M・ラッド、マヌエル・ギュンター、テレンス・E・ボールト。2016. Moon: 顔の属性を認識するための混合目的最適化ネットワーク。コンピュータビジョンに関する欧州会議にて。スプリンガー、19–35。
- JS ガロフォロ、ロリ ラメル、WM フィッシャー、ジョナサン フィカス、D S. パレット、N L. ダールグレン、V ズエ。1992. TIMIT 音響音声連続音声コーパス。(1992 年 11 月)。
- レイ・スン、ジュン・ドゥ、リー・ロン・ダイ、チン・ホイ・リー。2017. LSTM-RNN ベースの音声強化のための複数ターゲットの深層学習。HSCMAでは。
- シーズ・H・タール、リチャード・C・ヘンドリックス、リチャード・ヒューデンス、ジェスパー・ジェンセン。2010. 時間周波数重み付けされた騒音のある音声に対する短時間の客観的な明瞭度の尺度。音響音声信号処理 (ICASSP)、2010 IEEE 国際会議で。IEEE、4214 ~ 4217。
- エマニュエル・ヴィンセント、ジョン・バーカー、渡辺慎二、ジョナサン・ル・ルー、フランチェスコ・ネスタ、マルコ・マタッソーニ。2013. 2 番目の「チャイム」音声分離と認識の課題: データセット、タスク、ベースライン。2013 IEEE 音響、音声および信号処理に関する国際会議 (2013)、126–130。
- E. ヴィンセント、R. グリボンヴァル、C. フェボット。2006. ブラインド音源分離におけるパフォーマンス測定。トランス。オーディオ、スピーチ、言語。手順 14、4 (2006)、1462–1469。
- 王徳良と陳吉通。2017. 深層学習に基づく教師付き音声分離: 概要。CoRR abs/1708.07524 (2017)。
- 王玉軒、アルン・ナラヤナン、王徳良。2014. 教師付き音声分離のトレーニング目標について。音声、音声、言語処理に関する IEEE/ACM トランザクション (TASLP) 22、12 (2014)、1849 ~ 1858 年。
- Ziteng Wang、Xiaofei Wang、Xu Li、Qiang Fu、および Yonghong Yan、2016 年、Oracle による理想マスクのパフォーマンス調査、IWAENC にて。
- フェリックス・ウェニンガー、ハカン・エルドアン、渡辺信治、エマニュエル・ヴァンサン、ジョナサン・ル・ルー、ジョン・R・ハーシー、ビョルン・W・シュラー。2015. LSTM リカレント ニューラル ネットワークによる音声の強化とノイズに強い ASR へのその応用。LVA/ICA で。
- ドン・ユー、モルテン・コルベック、ジェンファ・タン、ジェスパー・ジェンセン。2017. 話者に依存しない複数話者の音声分離のための深層モデルの順列不変トレーニング。音響、音声および信号処理に関する IEEE 国際会議 (ICASSP) (2017)、241–245。
- マシュー・D・ザイラーとロブ・ファーガス。2014. 畳み込みネットワークの視覚化と理解。コンピュータビジョンに関する欧州会議にて。スプリンガー、818–833。
- ハン・ジャオ、チュアン・ガン、アンドリュー・ロウディチェンコ、カール・ヴォドリック、ジョシュ・マクダーモット、アントニオ・トラルバ。2018. ピクセルの音。(2018年)。
- ボレイ・ジョウ、アディティヤ・コスラ、アガタ・ラペドリザ、オーデ・オリバ、アントニオ・トラルバ。2014. ディープシーン CNN に物体検出器が登場。arXiv プレプリント arXiv:1412.6856 (2014)。
分離品質を評価するための客観的な尺度
A.1 信号対雑音比 (SDR)
Vincent らが 2006 年に導入した信号対歪み比 (SDR) は、オリジナルのソース信号がベースライン事実として存在するブラインド オーディオ ソース分離 (BASS) アルゴリズムを評価するために使用される一連の指標の 1 つです。これらのメトリクスは、推定された各ソース信号を真のソース部分 (s_target) と、干渉 (e_interf)、付加的ノイズ (e_noise)、およびアルゴリズムによって誘発されたアーティファクト (e_artif) に対応する誤差項に分解することに基づいています。
SDR は最も一般的なスコアであり、音声分離アルゴリズムのパフォーマンスを報告するためによく使用されます。デシベル (dB) で測定され、次のように定義されます。
SDR : = 10 ⋅ log 10 ( ∣ ∣ S target ∣ ∣ 2 ∣ ∣ einterf + enoise + Eartif ∣ ∣ 2 ) (2) SDR:=10\cdot \ log_{10}(\frac{||S_{ターゲット}||^{2}}{||e_{interf}+e_{ノイズ}+e_{artif}||^{2}})\tag{ 2 }SDR _ _:=10⋅ログ_10(∣∣ eインターファで_+eいいえ、私は+eアーティファ_ _ _∣ ∣2∣∣ Sターゲット_ _ _ _ _∣ ∣2)( 2 )
信号の構成要素への分解の詳細については、元の論文を参照してください。この指標と分離後の残留ノイズの量の間には良好な相関関係があることがわかりました。
A.2 仮想音声品質目標モニター (ViSQOL)
仮想音声品質目標リスナー (ViSQOL) は、Hines et al. [2015] によって提案された客観的な音声品質モデルです。このメトリクスは、基準 (r) 音声信号と劣化 (d) 音声信号間のスペクトル時間的類似性測定を使用して人間の音声品質知覚をモデル化し、ニューログラム類似性指数測定 (NSIM) [Hines and Harte 2012] に基づいています。NSIM は次のように定義されます。
NSIM ( r , d ) = 2 μ r μ d + C 1 μ r 2 + μ d 2 + C 1 ⋅ σ rd + C 2 σ r σ d + C 2 (3) NSIM(r 、d)=\frac{2\mu_{r}\mu_{d}+C_{1}}{\mu_{r}^{2}+\mu^{2}_{d}+C_{1} } \cdot\frac{\sigma_{rd}+C_{2}}{\sigma_{r}\sigma_{d}+C_{2}}\tag{3}NS IM ( r , _d )=メートルr2+メートルd2+C12m _rメートルd+C1⋅prpd+C2pRD _+C2( 3 )
ここで、μs と σs はそれぞれ、スペクトログラム間で計算された基準信号と劣化信号の間の平均値と相関係数です。ViSQOL では、NSIM は、基準信号のスペクトル タイルと、劣化した信号からの対応するタイルで計算されます。次に、アルゴリズムは NSIM スコアを集計し、1 ~ 5 の平均オピニオン スコア (MOS) に変換します。
DR は最も一般的なスコアであり、音声分離アルゴリズムのパフォーマンスを報告するためによく使用されます。デシベル (dB) で測定され、次のように定義されます。
SDR : = 10 ⋅ log 10 ( ∣ ∣ S target ∣ ∣ 2 ∣ ∣ einterf + enoise + Eartif ∣ ∣ 2 ) (2) SDR:=10\cdot \ log_{10}(\frac{||S_{ターゲット}||^{2}}{||e_{interf}+e_{ノイズ}+e_{artif}||^ {2}})\tag{ 2 }SDR _ _:=10⋅ログ_10(∣∣ eインターファで_+eいいえ、私は+eアーティファ_ _ _∣ ∣2∣∣ Sターゲット_ _ _ _ _∣ ∣2)( 2 )
信号の構成要素への分解の詳細については、元の論文を参照してください。この指標と分離後の残留ノイズの量の間には良好な相関関係があることがわかりました。
A.2 仮想音声品質目標モニター (ViSQOL)
仮想音声品質目標リスナー (ViSQOL) は、Hines et al. [2015] によって提案された客観的な音声品質モデルです。このメトリクスは、基準 (r) 音声信号と劣化 (d) 音声信号間のスペクトル時間的類似性測定を使用して人間の音声品質知覚をモデル化し、ニューログラム類似性指数測定 (NSIM) [Hines and Harte 2012] に基づいています。NSIM は次のように定義されます。
NSIM ( r , d ) = 2 μ r μ d + C 1 μ r 2 + μ d 2 + C 1 ⋅ σ rd + C 2 σ r σ d + C 2 (3) NSIM(r 、d)=\frac{2\mu_{r}\mu_{d}+C_{1}}{\mu_{r}^{2}+\mu^{2}_{d}+C_{1} } \cdot\frac{\sigma_{rd}+C_{2}}{\sigma_{r}\sigma_{d}+C_{2}}\tag{3}NS IM ( r , _d )=メートルr2+メートルd2+C12m _rメートルd+C1⋅prpd+C2pRD _+C2( 3 )
ここで、μs と σs はそれぞれ、スペクトログラム間で計算された基準信号と劣化信号の間の平均値と相関係数です。ViSQOL では、NSIM は、基準信号のスペクトル タイルと、劣化した信号からの対応するタイルで計算されます。次に、アルゴリズムは NSIM スコアを集計し、1 ~ 5 の平均オピニオン スコア (MOS) に変換します。
https://cloud.google.com/vision/ ↩︎
このような混合は、データセット内の妨害の種類を適切にモデル化します。これには、通常、単一の話者が聴衆の拍手やオープニング音楽などの非音声音によって妨害されることが含まれます。↩︎
https://support.google.com/youtube/answer/6373554?hl=ja ↩︎
一般的な音素継続時間の範囲である 30 ~ 200 ミリ秒をカバーするために、200 ミリ秒の長さを使用します。↩︎
この例では「正しい」と考えられる、遮蔽されていないビデオでの音声分離の結果が実際に正確であることを確認するために、読者に補足資料を参照してもらいます。↩︎