Desenvolvimento da função de reconhecimento de voz com base na chamada do SDK da plataforma Baidu AI

1. Trabalho preliminar

1. Ter uma conta Baidu Smart Cloud
2. Crie um aplicativo de voz, após a criação ser bem-sucedida, um aplicativo será exibido

Insira a descrição da imagem aqui 3. Verifique seu aplicativo na lista de aplicativos.
Enfatize:
O AppID, a chave API e a chave secreta aqui são muito importantes.
Além do reconhecimento de voz e outras chamadas API, o Baidu não pode ficar sem esses três parâmetros importantes.

2. Chame o Baidu Voice SDK, baseado em python3

Processo de operação:
1.
Baixe o pacote que eu uso pip install baidu-aip

Insira a descrição da imagem aqui
2. Novo AipSpeech

from aip import AipSpeech

""" 你的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

3. Configure o AipSpeech (geralmente não é necessário)

4. Descrição da solicitação
Tome o reconhecimento de arquivos de voz locais como exemplo, suponha que haja um arquivo de voz local chamado audio.pcm:

# 读取文件
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()

# 识别本地文件
client.asr(get_file_content('audio.pcm'), 'pcm', 16000, {
    
    
    'dev_pid': 1537,
})

Nota:
1. O sufixo do arquivo de voz local deve corresponder aos seguintes parâmetros um a um
. 2. A taxa de amostragem de áudio é fixada em 16000/8000. Áudio que não atenda a essa taxa de amostragem não será reconhecido.
3. O formato do arquivo de voz suporta pcm / wav / amr

// 成功返回
{
    
    
    "err_no": 0,
    "err_msg": "success.",
    "corpus_no": "15984125203285346378",
    "sn": "481D633F-73BA-726F-49EF-8659ACCC2F3D",
    "result": ["北京天气"]
}

// 失败返回
{
    
    
    "err_no": 2000,
    "err_msg": "data empty.",
    "sn": null
}

Para obter mais detalhes, consulte
a documentação técnica do site oficial do Baidu Speech Recognition (https://cloud.baidu.com/doc/SPEECH/s/1k4o0bmc7)