Baidu Flying Paddle paddlespeech realiza el reconocimiento de flujo de voz en tiempo real de pequeños programas

Prefacio:

Jaja, esta es la asignación de mi empresa en abril de 2023. Si se trata simplemente de reconocimiento de voz, no es demasiado difícil, y el archivo wav sigue directamente la salida del modelo. ¡Pero preste atención al título, reconocimiento de transmisión, en tiempo real!

Luego tengo que hablar de las ventajas del streaming.

1. Resuelva el problema del desbordamiento de memoria.

2. Está previsto que se genere sin archivos, y el flujo de voz recibido irá directamente al modelo para reducir la presión sobre el almacenamiento en disco.

Este artículo utiliza el subprograma paddlespeech+WeChat para lograr el efecto, y la imagen del efecto es la siguiente:

Ejemplo de reconocimiento de voz de transmisión

Basta de tonterías, ¡vamos al código!

1. Ejemplo de dirección de demostración:

Enlace: aHR0cHM6Ly9wYW4uYmFpZHUuY29tL3MvMXBWRjdfLXNveDBub0x0Z0lPR2pQT0HCoA==
Código de extracción: zcq2

2. Dependencias de instalación [Se recomienda usar conda para aislar el entorno]

pip install --upgrade paddlepaddle -i https://mirror.baidu.com/pypi/simple
pip install pytest-runner
pip install paddlespeech

y algunas otras dependencias

pip install -r requirements.txt -i https://mirror.baidu.com/pypi/simple

3. Ejecute el servidor

python main.py --port 8010

Nota: Es vergonzoso si nlp informa un error y requiere magia para reiniciar. U otros métodos en Internet, aquí uso magia directamente. . .

Es mejor cambiar la ip en main.py a su propia ip de LAN

Luego se ejecuta el front-end uniapp, preste atención a la dirección ws.

No use el micrófono de la computadora para probar directamente después de iniciar el applet, porque la interfaz de grabación del applet no es compatible con PC. Puede usar el subprograma WeChat para depurar en la máquina real (la red de telefonía móvil está en la LAN wifi) y usar el teléfono móvil para probar el reconocimiento de grabación para lograr el efecto en el video.

sentimientos de prueba

Puede ser un micrófono de teléfono móvil o un problema de reconocimiento de transmisión directa, propenso a errores tipográficos, por lo que se recomienda ajustar la velocidad de recopilación del subprograma y la claridad del micrófono. Luego está el applet que admite hasta 10 minutos de grabación.

Baidu Flying Paddle paddlespeech realiza el reconocimiento de flujo de voz en tiempo real de pequeños programas

Supongo que te gusta