頭字語のSD、名前が示すように、音声信号ストリームの長さで収集し、話すように異なる話者を区別するために標識インチ 図文献[1]の2010年8月を参照。
スピーチ信号処理アプリケーションにも、さまざまなシナリオの下で、スピーカー部門を知られており、そして最近も、関係の研究者が増えてきました。; 2)監視方法、ニューラルネットワークの深さ、及びそのようなRNNなどの他の方法1)教師なしの方法、そのようなスペクトルクラスタリングおよびK-手段等:SDは、以下の二つの方法に分けられます。
教師なしクラスタリング
モニタリング方法論に基づいて、RNN
UIS-RNN [2]
これは、Googleが2019年に発表された論文で、話者分類のリアルタイム処理を研究し、各話者のためのRNNモデルを構築し、スピーカーの数を制限し、継続的に更新されていません。本明細書にリアルタイムスピーカーセグメンテーション精度は92%に達することができる表し、DERは、クラスタリング(8.8%)および方法(9.9%)の埋め込み深さネットワークに基づく従来の方法を超えて7.6%に減少しました。
本稿では主に無制限の間隔の状態を提示(.Unboundedはインターリーブ状態)RNNは、可変データのセグメンテーションとすることができクラスタリングアルゴリズムのトレーニング時間を教師あり学習。
マップを初めて目には、それが結果はSDのテキストです。
異なる色が異なるスピーカーを表し、横軸は時間インデックスです。
研究者はモデリングすべてのスピーカー(埋め込み)のためのリカレントニューラルネットワークのパラメータ共有を使用することを、このアプローチと通常のクラスタリング手法との主な違い、およびを通じてリカレントニューラルネットワークの異なる状態のスピーカーを識別するために、どの缶異なる人々との関連で異なる音声作品。
具体的には、みんなの声がとして見ることができる共有RNNの重みの一例には、複数のスピーカーシーンに対応することが可能である無制限の例の形成のために、。異なるスピーカに異なる入力相当にRNN状態は教師あり学習により音声セグメントをマージするために実現することができます。完全監修モデルによって、あなたは、音声の話者の数を取得することができ、およびオンラインシステムのパフォーマンスの質的向上をもたらすRNNを、変化させることによって、情報を運ぶことができます。
システムのベースライン構成は以下のとおりです。
UIS-RNNが文である(X-、Y)ライン生成処理、アルゴリズムは次のように構造が提案されています。
最大ビームサーチを用いた処理方法をデコード事後確率基準を用いて復号処理を行います。
将来の研究者は、コンテキスト情報を復号オフライン統合のためのモデルを改善するであろう。また、モデルが最後まで完全なエンドを達成することができるように、音声特徴dベクトルとして直接音響特性を所望の代わりに。
参照
[1]スピーカーDiarization:最近の研究のAレビュー
[2]完全スピーカーDiarizationを監修、2019 ICASSP受け付け。