ASR-Spracherkennungsmethode basierend auf der Paddle-Methode

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2023/3/17 16:25
# @Author : sparkle_code_guy
'''
conda create -n paddlespeech python=3.7 cudnn=7.6.5 cudatoolkit=10.1.243 ffmpeg x264
pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
pip install paddlespeech -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install gradio
'''
import paddle
import gradio as gr
from paddlespeech.cli.asr import ASRExecutor

asr_executor = ASRExecutor()

def recognize_txt(audio_input,record_input):

    if audio_input:
        audio_message = audio_input
    else:
        audio_message = record_input
    text = asr_executor(
        audio_file=audio_message,
        model='conformer_wenetspeech',
        lang='zh',
        sample_rate=16000,
        config=None,  # Set `config` and `ckpt_path` to None to use pretrained model.
        ckpt_path=None,

        force_yes=False,
        device=paddle.get_device())
    return text

audio_input = gr.components.Audio(label='upload',source="upload",type='filepath')
record_input = gr.components.Audio(label='record',source="microphone",type='filepath')
iface = gr.Interface(fn=recognize_txt, inputs=[audio_input,record_input], outputs="text")
iface.launch(share=False,server_name='0.0.0.0',server_port=30001)

Quellcode durch Zugreferenz: Paddlespeech-Funktionstest: Schritt für Schritt, um jede Sprachfunktion des Paddlespeech-Pakets zu erleben (gitee.com)

Verbleibendes Problem:

Derzeit gibt es keine Möglichkeit, die entsprechenden Streaming-Daten oder Narrays direkt zu importieren, und wer Ideen hat, kann kommunizieren

Wenn Sie die GPU-Umgebung verwenden, ist die Effizienzsteigerung besonders deutlich und die Nutzungsanforderung für die GPU beträgt nur 2,5 GB Videospeicherplatz

Konfigurationsreferenz für die PaddleGPU-Umgebung: (3 Meldungen) Verwenden Sie Anaconda, um die Paddle-GPU-Umgebung zu installieren

おすすめ

転載: blog.csdn.net/sslfk/article/details/129235497