Prefacio:
Jaja, esta es la asignación de mi empresa en abril de 2023. Si se trata simplemente de reconocimiento de voz, no es demasiado difícil, y el archivo wav sigue directamente la salida del modelo. ¡Pero preste atención al título, reconocimiento de transmisión, en tiempo real!
Luego tengo que hablar de las ventajas del streaming.
1. Resuelva el problema del desbordamiento de memoria.
2. Está previsto que se genere sin archivos, y el flujo de voz recibido irá directamente al modelo para reducir la presión sobre el almacenamiento en disco.
Este artículo utiliza el subprograma paddlespeech+WeChat para lograr el efecto, y la imagen del efecto es la siguiente:
Ejemplo de reconocimiento de voz de transmisión
Basta de tonterías, ¡vamos al código!
1. Ejemplo de dirección de demostración:
Enlace: aHR0cHM6Ly9wYW4uYmFpZHUuY29tL3MvMXBWRjdfLXNveDBub0x0Z0lPR2pQT0HCoA==
Código de extracción: zcq2
2. Dependencias de instalación [Se recomienda usar conda para aislar el entorno]
pip install --upgrade paddlepaddle -i https://mirror.baidu.com/pypi/simple
pip install pytest-runner
pip install paddlespeech
y algunas otras dependencias
pip install -r requirements.txt -i https://mirror.baidu.com/pypi/simple
3. Ejecute el servidor
python main.py --port 8010
Nota: Es vergonzoso si nlp informa un error y requiere magia para reiniciar. U otros métodos en Internet, aquí uso magia directamente. . .
Es mejor cambiar la ip en main.py a su propia ip de LAN
Luego se ejecuta el front-end uniapp, preste atención a la dirección ws.
No use el micrófono de la computadora para probar directamente después de iniciar el applet, porque la interfaz de grabación del applet no es compatible con PC. Puede usar el subprograma WeChat para depurar en la máquina real (la red de telefonía móvil está en la LAN wifi) y usar el teléfono móvil para probar el reconocimiento de grabación para lograr el efecto en el video.
sentimientos de prueba
Puede ser un micrófono de teléfono móvil o un problema de reconocimiento de transmisión directa, propenso a errores tipográficos, por lo que se recomienda ajustar la velocidad de recopilación del subprograma y la claridad del micrófono. Luego está el applet que admite hasta 10 minutos de grabación.