BaiduAIプラットフォームに基づく音声認識機能の開発-SDK呼び出し

1.準備作業

1. Baidu Smart Cloudアカウントを持っている
2.音声アプリケーションを作成します。作成が成功すると、アプリケーションが表示されます

ここに写真の説明を挿入3.アプリケーションリストで自分のアプリケーションを確認します。
ここに写真の説明を挿入強調:
ここでのAppID、APIキー、およびシークレットキーは非常に重要です。
音声認識やその他のapi呼び出しに加えて、Baiduはこれらの3つの重要なパラメーターなしでは実行できません。

2.python3に基づいてBaiduVoiceSDKを呼び出します

操作プロセス:
1。
使用するパッケージをダウンロードします。pipinstallbaidu-aip

ここに写真の説明を挿入
2.新しいAipSpeech

from aip import AipSpeech

""" 你的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

3. AipSpeechを構成します(通常は不要)

4.リクエストの説明
例としてローカル音声ファイルの認識を取り上げます。audio.pcmというローカル音声ファイルがあるとします。

# 读取文件
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()

# 识别本地文件
client.asr(get_file_content('audio.pcm'), 'pcm', 16000, {
    
    
    'dev_pid': 1537,
})

注:
1。ローカル音声ファイルのサフィックスは、次のパラメーターに1対1で対応する必要があります
。2。オーディオサンプリングレートは16000/8000に固定されています。このサンプリングレートを満たさないオーディオは認識されません。3。音声
ファイルの形式はpcm /をサポートしますwav / amr

// 成功返回
{
    
    
    "err_no": 0,
    "err_msg": "success.",
    "corpus_no": "15984125203285346378",
    "sn": "481D633F-73BA-726F-49EF-8659ACCC2F3D",
    "result": ["北京天气"]
}

// 失败返回
{
    
    
    "err_no": 2000,
    "err_msg": "data empty.",
    "sn": null
}

詳細については、
Baidu Speech Recognitionの公式ウェブサイトの技術文書(https://cloud.baidu.com/doc/SPEECH/s/1k4o0bmc7)を参照してください。

おすすめ

転載: blog.csdn.net/qq_49821869/article/details/109635921