百度语音识别——Rest APi(Java) (1)

百度语音识别——Rest Api方式 (1)

Rest Api 百度官方识别DEMO地址:https://github.com/Baidu-AIP/speech-demo/tree/master/rest-api-asr

不支持流式识别,不限系统,不限编程语言;

功能要求:

  1. Rest Api给用户提供的是一个HTTP接口,上传(输入)整个音频文件,返回(输出)识别结果;识别时长与音频时长成正比;

  2. 识别模型:支持搜索模型,输入法模型,远场模型三种;  普通话搜索模型可以识别常用的英语。

  3. 语音格式: 支持pcm(不压缩) 采样率:固定值16000   编码  16bit,  单声道 ,小端序。

                                         wav(不压缩 pcm编码),(就是pcm格式的加了个头文件)

                                         amr(压缩),16k  单声道

  1.  支持自定义词库: 自定义识别词分词的优先级较高,RestApi的自定义词库仅对dev_pid=1536才能使用。 自定义词库的text文件不能超过5M,最好在一万行以内

  2. RestApi的语音识别的请求方式有两种:Json和Raw两种方式提交。

DEMO的调用流程:

两次HTTP请求,第一次换取Token值;  第二次上传音频文件,获取识别结果;

1.获取Token值

请求的URL应该为:

https://openapi.baidu.com/oauth/2.0/token?grant_type=client_credentials&client_id="申请的APIKEY“&client_secret=申请的SecretKey"

2.上传音频文件

    设置输入参数:

format string 必填 语音文件的格式,pcm 或者 wav 或者 amr。不区分大小写。推荐pcm文件
rate string 必填 采样率,16000,固定值
channel string 必填 声道数,仅支持单声道,请填写固定值 1
cuid int 必填 用户唯一标识,用来区分用户,计算UV值。建议填写能区分用户的机器 MAC 地址或 IMEI 码,长度为60字符以内。
token string 必填 开放平台获取到的开发者[access_token]获取 Access Token "access_token")
dev_pid int 选填 不填写lan参数生效,都不填写,默认1537(普通话 输入法模型),dev_pid参数见本节开头的表格
lan string 选填,废弃参数 历史兼容参数,请使用dev_pid。如果dev_pid填写,该参数会被覆盖。语种选择,输入法模型,默认中文(zh)。 中文=zh、粤语=ct、英文=en,不区分大小写。
speech string 选填 本地语音文件的的二进制语音数据 ,需要进行base64 编码。与len参数连一起使用。
len int 选填 本地语音文件的的字节数,单位字节

具体使用可参考demo;

猜你喜欢

转载自blog.csdn.net/weixin_39147807/article/details/83823759