#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2023/3/17 16:25
# @Author : sparkle_code_guy
'''
conda create -n paddlespeech python=3.7 cudnn=7.6.5 cudatoolkit=10.1.243 ffmpeg x264
pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
pip install paddlespeech -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install gradio
'''
import paddle
import gradio as gr
from paddlespeech.cli.asr import ASRExecutor
asr_executor = ASRExecutor()
def recognize_txt(audio_input,record_input):
if audio_input:
audio_message = audio_input
else:
audio_message = record_input
text = asr_executor(
audio_file=audio_message,
model='conformer_wenetspeech',
lang='zh',
sample_rate=16000,
config=None, # Set `config` and `ckpt_path` to None to use pretrained model.
ckpt_path=None,
force_yes=False,
device=paddle.get_device())
return text
audio_input = gr.components.Audio(label='upload',source="upload",type='filepath')
record_input = gr.components.Audio(label='record',source="microphone",type='filepath')
iface = gr.Interface(fn=recognize_txt, inputs=[audio_input,record_input], outputs="text")
iface.launch(share=False,server_name='0.0.0.0',server_port=30001)
Código fuente a través de la referencia del tren: prueba de la función paddlespeech: paso a paso para experimentar cada función de voz del paquete paddlespeech (gitee.com)
Problema restante:
En la actualidad, no hay forma de importar directamente los datos de transmisión o narray correspondientes, y aquellos que tienen ideas pueden comunicarse.
Si usa el entorno GPU, la mejora de la eficiencia es particularmente obvia y el requisito de uso para la GPU es de solo 2,5 G de espacio de memoria de video.
Referencia de configuración para el entorno paddlegpu: (3 mensajes) Use anaconda para instalar el entorno paddle gpu