言語を越えた人間の声と犬の鳴き声の交換をサポートし、最も近い隣人の単純な音声変換モデルのみを使用するのは、どれほど素晴らしいことでしょうか

AI音声変換は本当に可能な限り複雑なのでしょうか?この論文では、シンプルだが同様に強力な言語変換モデルを提案します。これは、ベースライン方法と同じくらい自然で明確であり、類似性が大幅に改善されています。

AIが参加する声の世界は本当にすごいもので、人の声を他の人の声に変えたり、動物と声を交換したりすることもできます。

音声変換の目標は、内容を変更せずにソース音声をターゲット音声に変換することであることはわかっています。最近の Any-to-Any 音声変換方法では、自然さと話者の類似性が向上しましたが、その代償として複雑さが大幅に増加しました。これは、トレーニングと推論のコストが高くなり、改善の評価と確立が困難になることを意味します。

問題は、高品質の音声変換には複雑さが必要かということです。南アフリカのステレンボッシュ大学での最近の論文では、数人の研究者がこの疑問を調査しました。

  論文アドレス: https://arxiv.org/pdf/2305.18975.pdf

  GitHub アドレス: https://bshall.github.io/knn-vc/

この研究のハイライトは、任意の音声を任意の音声に変換するためのシンプルかつ強力な方法である K 最近傍音声変換 (kNN-VC) を導入していることです。このプロセスでは明示的な変換モデルはトレーニングされませんが、K 最近傍回帰が単に使用されます。

具体的には、研究者らはまず自己教師あり音声表現モデルを使用してソース発話と参照発話の特徴シーケンスを抽出し、次に参照内の最近傍を置き換えることによってソース表現の各フレームをターゲット話者に変換し、最後にニューラルボコーダを使用して変換された特徴を合成して、変換された音声を取得します。

結果から、その単純さにも関わらず、KNN-VC はいくつかのベースライン音声変換システムと比較して、主観的評価と客観的評価の両方で明瞭性と話者の類似性と同等か、さらには向上させています。

KNN-VC音声変換の効果を実感してみましょう。まず、LibriSpeech データセット内の目に見えないソース話者とターゲット話者に KNN-VC を適用する音声変換を見てみましょう。

ソースボイス:音声を聞いてください

合成音声 1 :音声を聞くために私を突いてください

合成音声 2 :音声を聞くために私を突いてください

KNN-VC は、スペイン語からドイツ語、ドイツ語から日本語、中国語からスペイン語など、言語間の音声変換もサポートしています。

ソース中国語:音声を聞くために私を突いてください

ターゲットスペイン語:音声を聞くために私を突いてください

合成音声 3 :音声を聞くために私を突いてください

さらに驚くべきことは、KNN-VC は人間の声と犬の鳴き声を交換することもできることです。

犬の鳴き声のソース:音声を聞くように突いてください

ソースボーカル:音声を聞いてください

合成音声 4 :音声を聞くために私を突いてください

合成音声 5 :音声を聞くために私を突いてください

次に、KNN-VC がどのように機能するかを確認し、結果を他の jixian メソッドと比較します。

手法の概要と実験結果

kNN-VC のアーキテクチャ図を以下に示します。これは、エンコーダ、コンバータ、ボコーダの構造に従います。まずエンコーダがソース音声とリファレンス音声の自己教師あり表現を抽出し、次にトランスフォーマが各ソースフレームをリファレンス内の最も近いフレームにマッピングし、最後にボコーダが変換された特徴に基づいてオーディオ波形を生成します。

エンコーダーは WavLM を使用し、コンバーターは K 最近傍回帰を使用し、ボコーダーは HiFiGAN を使用します。トレーニングする必要がある唯一のコンポーネントはボコーダーです。

WavLM エンコーダの場合、事前トレーニングされた WavLM-Large モデルのみを使用し、このペーパーではトレーニングしません。kNN 変換モデルの場合、kNN はノンパラメトリックであり、トレーニングは必要ありません。HiFiGAN ボコーダーの場合、WavLM 機能はオリジナルの HiFiGAN 作者のリポジトリを使用してボコーディングされ、トレーニングが必要な唯一の部分となりました。

実験では、研究者らはまず、利用可能な最大のターゲット データ (話者あたり約 8 分の音声) を使用して音声変換システムをテストし、KNN-VC を他のベースライン手法と比較しました。

KNN-VC の場合、研究者はすべてのターゲット データをマッチング セットとして使用します。ベースライン方法では、各ターゲット発話の話者エンベディングを平均します。

以下の表 1 は、各モデルの明瞭さ、自然さ、話者の類似性の結果を示しています。ご覧のとおり、kNN-VC は、最高のベースライン FreeVC と同様の自然さと明瞭さを実現しますが、話者の類似性は大幅に高くなります。これは、高品質の音声変換には複雑さを増す必要がないというこの論文の主張も裏付けています。

さらに、研究者らは、事前に照合されたデータでトレーニングされた HiFi-GAN によってどの程度改善されるのか、ターゲット話者のデータ サイズが明瞭度と話者の類似性にどの程度影響するのかを理解したいと考えていました。

以下の図 2 は、異なるターゲット スピーカー サイズでの 2 つの HiFi-GAN バリアントの WER (小さいほど優れている) グラフと EER (高いほど優れている) グラフを示しています。

ネチズンからの熱いコメント

この「最近傍音声のみを使用する」新しい音声変換方式 kNN-VC について、記事内では事前学習済みの音声モデルが使用されていると考える人もいますので、「のみ」という表現は正確ではありません。しかし、kNN-VC が他のモデルに比べて依然として単純であることは否定できません。

この結果は、kNN-VC が、非常に複雑な Any-to-Any 音声変換方法と比較して、最高ではないにしても、同じくらい効果的であることも示しています。

人間の声と犬の鳴き声が入れ替わる例は非常に興味深いと言う人もいます。

おすすめ

転載: blog.csdn.net/weixin_48827824/article/details/131554585