Baidu Flying Paddle paddlespeech は、小さなプログラムのリアルタイムの音声ストリーム認識を実現します

序文:

ははは、これは2023年4月の私の会社の割り当てです。単純な音声認識であればそれほど難しくなく、wav ファイルはモデルの出力をそのままたどります。ただし、タイトル、ストリーミング認識、リアルタイムに注意してください。

次に、ストリーミングの利点について話さなければなりません。

1.メモリオーバーフローの問題を解決します。

2. ファイルなしで生成される予定で、受信した音声ストリームはモデルに直接送られ、ディスク ストレージへの負担が軽減されます。

この記事では、パドルスピーチ + WeChat アプレットを使用して効果を実現しています。効果の画像は次のとおりです。

ストリーミング音声認識の例

ナンセンスはもう十分です。コードに行きましょう。

1. デモアドレスの例:

リンク: aHR0cHM6Ly9wYW4uYmFpZHUuY29tL3MvMXBWRjdfLXNveDBub0x0Z0lPR2pQT0HCoA==
抽出コード: zcq2

2. インストールの依存関係 [conda を使用して環境を分離することをお勧めします]

pip install --upgrade paddlepaddle -i https://mirror.baidu.com/pypi/simple
pip install pytest-runner
pip install paddlespeech

およびその他の依存関係

pip install -r requirements.txt -i https://mirror.baidu.com/pypi/simple

3. サーバーを実行する 

python main.py --port 8010

 

注: nlp がエラーを報告し、再起動に魔法が必要な場合は恥ずかしいことです。またはインターネット上の他の方法、ここでは魔法を直接使用します。. .

main.py の ip は、独自の LAN ip に変更するのが最適です

次に、uniapp フロントエンドが実行されます。ws アドレスに注意してください。

 アプレットの録音インターフェイスは PC をサポートしていないため、アプレットを起動した直後にコンピュータのマイクを使用してテストしないでください。WeChat アプレットを使用して実機 (携帯電話ネットワークは wifi LAN 内) でデバッグし、携帯電話を使用して録音認識をテストし、ビデオで効果を実現できます。

テスト感情

携帯電話のマイクまたはダイレクト ストリームの認識に問題がある可能性があり、タイプミスが発生しやすいため、アプレットの収集率とマイクの明瞭度を微調整することをお勧めします。次に、最大 10 分の録音をサポートするアプレットがあります。

おすすめ

転載: blog.csdn.net/weixin_47723549/article/details/130122635