ios 讯飞pcm转mp3处理

最近公司需要做讯飞语音声音转文字，并将声音文件上传的功能，遇到三个坑点，记录下：

1、讯飞iOS版语音听写的录音文件，如果代码不指定存放路径，是不保存的，也取不出来的，而且指定别的沙盒路径无效，只存放在cache目录下如下：

NSString* path = @"nowSendVoice.pcm";
            [_iFlySpeechRecognizer setParameter:path forKey:[IFlySpeechConstant ASR_AUDIO_PATH]];

这样获取到的路径就是var/.../.../Labrary/cache/nowSendVoice.pcm;这个就是每次语音识别完成（无论是否识别成功，都会在这个路径生成刚才听写的语音文件）后，而且截止到目前，讯飞只能生成pcm（这种格式音频文件比较大）文件格式，其他的mp3、amr都不支持，所以需要自己转换成mp3、amr等压缩过的音频文件.

2、拿到pcm文件后通过lame库(附赠lame库下载链接，直接拉到工程里，导入.h就可以用了 https://download.csdn.net/download/a787188834/10750140)转换成mp3文件时，遇到pcm文件100多k，而mp3文件只有10k左右，而且mp3文件只有2秒，或者1秒，并且全是杂音，这个我这边是因为设置的讯飞语音听写的识别后置端点时间过短，我这边原先设置的是1s，就会造成，我说了“12345”这段语音，而1秒过后，讯飞识别自动将保存的“12345”语音删除，重新开始下一段语音，这样造成了拿到的语音不是“12345”的语音，而是很短的语音，所以这个坑，只需要改下讯飞的前后置端点就好，我的前端点为1秒，后端点3秒，基本识别的延迟用户感觉不到，效果也比较好

//设置后端点
            [_iFlySpeechRecognizer setParameter:instance.vadEos forKey:[IFlySpeechConstant VAD_EOS]];
            //设置前端点
            [_iFlySpeechRecognizer setParameter:instance.vadBos forKey:[IFlySpeechConstant VAD_BOS]];

3、就是转换后的mp3语速变快，并且我的声音明显变得尖锐了，这个主要是因为设置的采样率的问题，我设置讯飞语音采样率是16k，但是转换的时候复制别人的代码11025.0的采样率，就造成这个坑了，改下采样率，将你设置的采样率跟讯飞的采样率一至就可以，mp3一般是双声道的，所以我这里讯飞16k采样率，转换成mp3的时候是8k采样率

主要代码：使用讯飞语音听写功能的例子(讯飞语音转文字iOS使用链接 https://blog.csdn.net/a787188834/article/details/80319482 )，（讯飞语音同写完，直播间声音没有bug解决:https://blog.csdn.net/a787188834/article/details/78612861）在我的其他博文有叙述，点链接查看就好，这里只贴获取到讯飞pcm文件，后转换mp3的代码，而且最好将转换mp3的代码放到异步线程中，不然的话，转换耗时，可能引起其他进程卡顿，比如直播间播放的时候，发言转换mp3格式，不放在异步线程转换就可能造成直播间画面的卡顿.

- (void)convertToMp3WithPcmPathStr:(NSString*)pcmPathStr newMp3PathStr:(NSString*)newMp3PathStr beforeBlock:(void (^)())beforeBlock endBlock:(void(^)())endBlock errorBlock:(void(^)())errorBlock{
    
    NSLog(@"pcm :%@  \n wav:%@",pcmPathStr,newMp3PathStr);
    
    if (beforeBlock) {
        beforeBlock();
    }
    //异步处理，不然可能引起直播间某些操作卡顿
    dispatch_async(dispatch_get_global_queue(DISPATCH_QUEUE_PRIORITY_DEFAULT, 0), ^{
        @try {
            int read,write;
            //只读方式打开被转换音频文件
            FILE *pcm = fopen([pcmPathStr cStringUsingEncoding:1], "rb");
            fseek(pcm, 4 * 1024, SEEK_CUR);
            //删除头，否则在前一秒钟会有杂音
            //只写方式打开生成的MP3文件
            FILE *mp3 = fopen([newMp3PathStr cStringUsingEncoding:1], "wb");
            const int PCM_SIZE = 8192;
            const int MP3_SIZE = 8192;
            short int pcm_buffer[PCM_SIZE * 2];
            unsigned char mp3_buffer[MP3_SIZE];
            //这里要注意，lame的配置要跟AVAudioRecorder的配置一致，否则会造成转换不成功
            lame_t lame = lame_init();
            lame_set_in_samplerate(lame, 8000.0);
            //采样率
            lame_set_VBR(lame, vbr_default);
            lame_init_params(lame);
            do {
                //以二进制形式读取文件中的数据
                read = (int)fread(pcm_buffer, 2 * sizeof(short int), PCM_SIZE, pcm);
                if (read == 0) {
                    write = lame_encode_flush(lame, mp3_buffer, MP3_SIZE);
                }
                else {
                    write = lame_encode_buffer_interleaved(lame, pcm_buffer, read, mp3_buffer, MP3_SIZE);
                }
                //二进制形式写数据到文件中 mp3_buffer：数据输出到文件的缓冲区首地址 write：一个数据块的字节数 1:指定一次输出数据块的个数 mp3:文件指针
                fwrite(mp3_buffer, write, 1, mp3);
                
            } while (read != 0);
            lame_close(lame);
            fclose(mp3);
            fclose(pcm);
            
        } @catch (NSException *exception) {
            NSLog(@"%@",[exception description]);
            if (errorBlock) {
                errorBlock();
            }
        } @finally {
            NSLog(@"MP3生成成功!!!");
            if (endBlock) {
                endBlock();
            }
        }
    });
    
}

ios 讯飞pcm转mp3处理

更多问题，欢迎加QQ群讨论:565191947

猜你喜欢