ios 讯飞pcm转mp3处理

最近公司需要做讯飞语音声音转文字,并将声音文件上传的功能,遇到三个坑点,记录下:

1、讯飞iOS版语音听写的录音文件,如果代码不指定存放路径,是不保存的,也取不出来的,而且指定别的沙盒路径无效,只存放在cache目录下如下:

NSString* path = @"nowSendVoice.pcm";
            [_iFlySpeechRecognizer setParameter:path forKey:[IFlySpeechConstant ASR_AUDIO_PATH]];

这样获取到的路径就是var/.../.../Labrary/cache/nowSendVoice.pcm;这个就是每次语音识别完成(无论是否识别成功,都会在这个路径生成刚才听写的语音文件)后,而且截止到目前,讯飞只能生成pcm(这种格式音频文件比较大)文件格式,其他的mp3、amr都不支持,所以需要自己转换成mp3、amr等压缩过的音频文件.

2、拿到pcm文件后通过lame库(附赠lame库下载链接,直接拉到工程里,导入.h就可以用了 https://download.csdn.net/download/a787188834/10750140)转换成mp3文件时,遇到pcm文件100多k,而mp3文件只有10k左右,而且mp3文件只有2秒,或者1秒,并且全是杂音,这个我这边是因为设置的讯飞语音听写的识别后置端点时间过短,我这边原先设置的是1s,就会造成,我说了“12345”这段语音,而1秒过后,讯飞识别自动将保存的“12345”语音删除,重新开始下一段语音,这样造成了拿到的语音不是“12345”的语音,而是很短的语音,所以这个坑,只需要改下讯飞的前后置端点就好,我的前端点为1秒,后端点3秒,基本识别的延迟用户感觉不到,效果也比较好

//设置后端点
            [_iFlySpeechRecognizer setParameter:instance.vadEos forKey:[IFlySpeechConstant VAD_EOS]];
            //设置前端点
            [_iFlySpeechRecognizer setParameter:instance.vadBos forKey:[IFlySpeechConstant VAD_BOS]];

3、就是转换后的mp3语速变快,并且我的声音明显变得尖锐了,这个主要是因为设置的采样率的问题,我设置讯飞语音采样率是16k,但是转换的时候复制别人的代码11025.0的采样率,就造成这个坑了,改下采样率,将你设置的采样率跟讯飞的采样率一至就可以,mp3一般是双声道的,所以我这里讯飞16k采样率,转换成mp3的时候是8k采样率

主要代码:使用讯飞语音听写功能的例子(讯飞语音转文字iOS使用链接 https://blog.csdn.net/a787188834/article/details/80319482 ),(讯飞语音同写完,直播间声音没有bug解决:https://blog.csdn.net/a787188834/article/details/78612861)在我的其他博文 有叙述,点链接查看就好,这里只贴获取到讯飞pcm文件,后转换mp3的代码,而且最好将转换mp3的代码放到异步线程中,不然的话,转换耗时,可能引起其他进程卡顿,比如直播间播放的时候,发言转换mp3格式,不放在异步线程转换就可能造成直播间画面的卡顿.

- (void)convertToMp3WithPcmPathStr:(NSString*)pcmPathStr newMp3PathStr:(NSString*)newMp3PathStr beforeBlock:(void (^)())beforeBlock endBlock:(void(^)())endBlock errorBlock:(void(^)())errorBlock{
    
    NSLog(@"pcm :%@  \n wav:%@",pcmPathStr,newMp3PathStr);
    
    if (beforeBlock) {
        beforeBlock();
    }
    //异步处理,不然可能引起直播间某些操作卡顿
    dispatch_async(dispatch_get_global_queue(DISPATCH_QUEUE_PRIORITY_DEFAULT, 0), ^{
        @try {
            int read,write;
            //只读方式打开被转换音频文件
            FILE *pcm = fopen([pcmPathStr cStringUsingEncoding:1], "rb");
            fseek(pcm, 4 * 1024, SEEK_CUR);
            //删除头,否则在前一秒钟会有杂音
            //只写方式打开生成的MP3文件
            FILE *mp3 = fopen([newMp3PathStr cStringUsingEncoding:1], "wb");
            const int PCM_SIZE = 8192;
            const int MP3_SIZE = 8192;
            short int pcm_buffer[PCM_SIZE * 2];
            unsigned char mp3_buffer[MP3_SIZE];
            //这里要注意,lame的配置要跟AVAudioRecorder的配置一致,否则会造成转换不成功
            lame_t lame = lame_init();
            lame_set_in_samplerate(lame, 8000.0);
            //采样率
            lame_set_VBR(lame, vbr_default);
            lame_init_params(lame);
            do {
                //以二进制形式读取文件中的数据
                read = (int)fread(pcm_buffer, 2 * sizeof(short int), PCM_SIZE, pcm);
                if (read == 0) {
                    write = lame_encode_flush(lame, mp3_buffer, MP3_SIZE);
                }
                else {
                    write = lame_encode_buffer_interleaved(lame, pcm_buffer, read, mp3_buffer, MP3_SIZE);
                }
                //二进制形式写数据到文件中 mp3_buffer:数据输出到文件的缓冲区首地址 write:一个数据块的字节数 1:指定一次输出数据块的个数 mp3:文件指针
                fwrite(mp3_buffer, write, 1, mp3);
                
            } while (read != 0);
            lame_close(lame);
            fclose(mp3);
            fclose(pcm);
            
        } @catch (NSException *exception) {
            NSLog(@"%@",[exception description]);
            if (errorBlock) {
                errorBlock();
            }
        } @finally {
            NSLog(@"MP3生成成功!!!");
            if (endBlock) {
                endBlock();
            }
        }
    });
    
}

更多问题,欢迎加QQ群讨论:565191947

猜你喜欢

转载自blog.csdn.net/a787188834/article/details/83893460