業界初のストリーミング音声合成システムのGitHub 3.1Kオープンソース

インテリジェントな音声技術は生活のあらゆるところで見られ、近年普及している一般的なインテリジェント アプリケーション アシスタント、音声ブロードキャスト、仮想デジタル ヒューマンはすべてインテリジェントな音声技術を備えています。インテリジェント音声は、音声認識、音声合成、自然言語処理など多くの技術から構成される包括的な技術であり、開発者にとって要求が高く、エンタープライズ アプリケーションでは常に困難でした。

Paddle 音声モデル ライブラリ PaddleSpeech は、開発者に音声認識、音声合成、声紋認識、音声分類などのさまざまな音声処理機能を提供します.コードはすべてオープン ソースであり、さまざまなサービスがワンクリックでデプロイされます.開発者は簡単に作成できます工業用アプリケーション!

PaddleSpeech は、オープン ソース化されて以来、開発者の間で広く注目されており、その注目度は高まり続けています。

その過程で、ユーザーのフィードバックに基づいて継続的にアップグレードし、新しいものを導入し、ユーザー エクスペリエンスを最適化します。

今回、PaddleSpeech バージョン 1.0 が正式にリリースされ、開発者に 4 つの重要なアップグレードがもたらされました
。 -clickストリーミング音声合成サービス展開ソリューション。

新しくリリースされた PP-ASR: 数万時間のデータに基づくオープン ソースのストリーミング音声認識システムと、オープン ソースのワンクリック ストリーミング音声認識サービス展開ソリューション。言語モデルのデコードとパーソナライズされた音声認識をサポートします。
新しくリリースされた PP-VPR: オープンソースのフルリンクの声紋抽出および検索システムで、10 分で産業グレードのシステムを簡単に構築できます。
ワンクリック サービス機能: 音声認識、音声合成、声紋認識、音声分類、句読点の回復、および 5 つのコア音声サービスのワンクリック展開。

★プロジェクトポータル★
記事末尾のクリックで原文をワンクリックGET!
GitHub - PaddlePaddle/PaddleSpeech: 句読点付きの SOTA/ストリーミング ASR、テキスト フロントエンド付きの影響力のある TTS、話者検証システム、エンドツーエンドの音声同時翻訳を含む、使いやすい音声ツールキット。

以下は、このリリースの内容の詳細な解釈です。

1. PP-TTS 業界初のオープンソースのエンドツーエンドのストリーミング音声合成システム

音声合成は、機械が「話す」ための「口」です。ディープラーニング技術の発展により、エンドツーエンドのニューラル ネットワークを使用した音声合成の効果は、従来の技術と比較して大幅に改善されましたが、エンドツーエンドの音声合成の応答時間は長く、困難です。リアルタイム要件の高いシナリオでの実装は難しい ビジネスニーズを満たすのは難しい

たとえば、リアルタイムのインタラクティブな仮想デジタル ヒューマン アプリケーションでは、仮想ヒューマンがユーザーの指示に迅速に応答する必要があります。合成品質を確保し、応答速度を向上させ、インタラクティブな体験を向上させます。

新しくリリースされた PaddleSpeech の PP-TTS は、ストリーミング音声合成システム ソリューションのワンクリック展開を提供し、音声合成技術のアプリケーションにおける長い応答時間と困難な着陸の問題を解決します。

ストリーミング推論構造、平均応答遅延の短縮

音響モデル FastSpeech2 とボコーダー HiFi-GAN を例にとると、PP-TTS は FastSpeech2 の Decoder モジュールを革新し、畳み込み構造として FFT-Block を置き換え、HiFi-GAN と組み合わせた FastSpeech2 に基づくストリーミング方法を革新的に提案します。構造、チャンクの形のストリーミング推論は、音響モデルとボコーダーの出力を非ストリーミング推論と一致させることができます。

PP-TTS ストリーミング音声合成は、合成品質を確保しながら平均応答遅延を大幅に短縮できます。

テスト環境:テスト ケースは CSMSC データセットの最後の 100 個であり、CPU は Intel(R) Core(TM) i5-8250U CPU @ 1.60GHz です。

エンドツーエンドの非ストリーミング合成と比較して、PP-TTS ストリーミング合成の平均応答遅延は 97.4% 削減され、通常の CPU ノートブックでもリアルタイムに応答できます。

テキストフロントエンドの最適化

PP-TTS は、中国のシーン向けのテキスト読み上げフロントエンド最適化ソリューションを提供します: 時間、日付、電話、温度などの一般的な非標準語に対してテキスト正規化処理が実行されます; オープンソースのソフト トーン シフト、トリプル トーン シフティングと「ノー」トランスポーズ (G2P) ソリューション。自作のテキスト正規化テスト セットでは、CER は 0.73% と低く、CSMSC データセットのピンインはグラウンド トゥルースとしてマークされ、単語から音声への変換 (G2P) の WER は 2.6% と低いです。 .

2. PP-ASR. 数万時間のデータに基づくストリーミング音声認識システム

音声合成が機械の「口」なら、音声認識は機械の「耳」であり、正確な「耳」があってこそ、機械は賢くなります。エンドツーエンドの非ストリーミング音声認識モデルの利点は、認識効果が優れていることですが、欠点は、システムの遅延が大きく、リアルタイムの対話シナリオのニーズを満たすことができないことです。この問題を解決するために、PaddleSpeech バージョン 1.0 は PP-ASR をもたらします。これは、WenetSpeech からの数万時間のデータに基づくストリーミング音声認識システムです。

認識効果を保証するという前提の下で、PP-ASR ストリーミング音声認識は応答遅延を大幅に短縮し、リアルタイムで認識結果を取得できるため、ユーザー エクスペリエンスが向上します。

テストデータセット: Conformerモデル、テストデータセットはAIShell-1、ストリーム認識ブロック長は640ms、GPU:Tesla V100-SXM2-32GB、CPU:80コア Intel(R) Xeon(R) Gold 6271C CPU@ 2.60 GHz 

個人識別ソリューション

WFST に基づくパーソナライズされた認識スキームは、特定のシナリオでの音声認識タスクをサポートします。たとえば、交通費の払い戻しのシナリオでは、一般的な音声認識は、POI、日付、時刻などのエンティティの認識に効果的ではありません.WFST に基づくパーソナライズされた認識は、認識の精度を向上させることができます. タクシー払い戻しの内部テスト セットでは、一般的な認識 CER は 5.4% であり、最適化された CER は 1.32% であり、4.08% の絶対増加です。

デモンストレーション効果については、記事の最後にある例を参照してください

3. PP-VPR. フルリンクの声紋認識および音声検索システム

生物学的特徴として、声紋機能は、優れた偽造防止、改ざんや盗難が容易でないなどの利点があり、音声認識と動的パスワード技術と組み合わせて、リモート ID 認証シナリオに非常に適しています。声紋認識技術に基づいて、音声検索技術 (音声、音楽、話者などの検索など) を組み合わせることで、大量の音声データから類似の音声 (または同じ話者) クリップをすばやくクエリして見つけることができます。

その中でも声紋認識は典型的なパターン認識問題であり、その基本的なシステム構成は次のとおりです。

PaddleSpeech のオープン ソース PP-VPR 声紋認識および音声検索システムは、業界をリードする声紋認識モデルを統合し、ECAPA-TDNN モデルを使用して声紋特徴を抽出し、認識エラー率 (EER、Equal error rate) は 0.83 % と低く、また、MySQL と Milvus を直列に接続することで、ミリ秒レベルの音声検索を実現する完全な音声検索システムを構築できます。

4. 音声認識、音声合成、声紋認識、音声分類、句読点復元の 5 つのコア音声サービスをワンクリックで展開

産業用アプリケーションでは、トレーニング済みのモデルをサービスの形で他の人に提供する方が便利です。ネットワーク サービス アプリケーションの完全なセットを構築するのは面倒な仕事であることを考慮すると, PaddleSpeech は、誰にでもワンクリックで展開できるサービスを提供します. コマンド ラインの 1 行のコードで、音声認識、音声合成、声紋認識、音声分類、および句読点を開始できます。 5 つの主要なサービスを復元します。

デモの使用と表示

demo/speech_server ディレクトリに入り、ワンクリックで音声認識、音声合成、声紋認識、音声分類、および句読点回復サービスを開始します。

この時点で、サービスは構成済みのポート 8090 にマウントされており、コマンド ラインからサービスを呼び出すことができます。

クライアントの呼び出し。音声認識を例にとると、次のようになります。

認識結果:

音声合成、声紋認識、音声分類、句読点復元のサービスは類似しており、対応するドキュメントを参照できます。

おすすめ

転載: blog.csdn.net/weixin_41888295/article/details/125066775