Qt/C++音视频开发46-音视频同步保存到MP4

一、前言

用ffmpeg单独做视频保存不难，单独做音频保存也不难，难的是音视频同步保存到MP4中，重点是音视频要同步，其实这也不难，只要播放那边音视频同步后的数据，写入到文件即可。最难的是在播放过程中不断随机的切换播放进度，而且还会暂停播放、暂停录制的情况出现，这些个复杂情况的出现，可以说，测试了所有网络上可能找到的相关代码，没有一个是行得通的，基本上都是停留在最简单的处理。那怎么办呢？近期花了半个月的时间，闭门把这个硬骨头啃下来，专门处理这个问题，毕竟暂停播放、暂停录制、切换进度这些个情况都是极大概率发生的，这一关过不了，就无法号称最全播放组件了。总之核心的解决办法就是，除了要重新调整时间基准以外，还需要在前面重新按照帧数量和音频的时长来设置pts/dts，网上能找到的代码，几乎都没看到这个计算，几乎都是调整时间基准的。大致整理了下能够做到下面几点的才能基本合格。

网上的保存计算都是在理想状态下进行的(打开后从第一帧开始保存直到结束)
中间如果切换了播放进度(不是连续的帧)
中间暂停了流采集或者暂停了录制(不是连续的时间)
同时支持录制到文件和推流到服务器
音视频同步输出(任意切换进度自动同步)
指定只存储视频或者音频
音视频流索引顺序是0/1和1/0
不编码存储和重新编码存储

为何要区分不编码存储和重新编码存储？因为编码要占用cpu，对于源头就是H264/265/AAC这种，完全可以不用编码直接存储到MP4文件中，可以大大节约CPU资源，所以保存类的设计中，就应该有这个判断。

二、效果图

在这里插入图片描述

三、体验地址

国内站点：https://gitee.com/feiyangqingyun
国际站点：https://github.com/feiyangqingyun
个人作品：https://blog.csdn.net/feiyangqingyun/article/details/97565652
体验地址：https://pan.baidu.com/s/1d7TH_GEYl5nOecuNlWJJ7g 提取码：01jf 文件名：bin_video_demo。

四、功能特点

4.1 基础功能

支持各种音频视频文件格式，比如mp3、wav、mp4、asf、rm、rmvb、mkv等。
支持本地摄像头设备，可指定分辨率、帧率。
支持各种视频流格式，比如rtp、rtsp、rtmp、http等。
本地音视频文件和网络音视频文件，自动识别文件长度、播放进度、音量大小、静音状态等。
文件可以指定播放位置、调节音量大小、设置静音状态等。
支持倍速播放文件，可选0.5倍、1.0倍、2.5倍、5.0倍等速度，相当于慢放和快放。
支持开始播放、停止播放、暂停播放、继续播放。
支持抓拍截图，可指定文件路径，可选抓拍完成是否自动显示预览。
支持录像存储，手动开始录像、停止录像，部分内核支持暂停录像后继续录像，跳过不需要录像的部分。
支持无感知切换循环播放、自动重连等机制。
提供播放成功、播放完成、收到解码图片、收到抓拍图片、视频尺寸变化、录像状态变化等信号。
多线程处理，一个解码一个线程，不卡主界面。

4.2 特色功能

同时支持多种解码内核，包括qmedia内核（Qt4/Qt5/Qt6）、ffmpeg内核（ffmpeg2/ffmpeg3/ffmpeg4/ffmpeg5）、vlc内核（vlc2/vlc3）、mpv内核（mpv1/mp2）、监控厂家sdk内核等。
非常完善的多重基类设计，新增一种解码内核只需要实现极少的代码量，就可以应用整套机制。
同时支持多种画面显示策略，自动调整（原始分辨率小于显示控件尺寸则按照原始分辨率大小显示，否则等比例缩放）、等比例缩放（永远等比例缩放）、拉伸填充（永远拉伸填充）。所有内核和所有视频显示模式下都支持三种画面显示策略。
同时支持多种视频显示模式，句柄模式（传入控件句柄交给对方绘制控制）、绘制模式（回调拿到数据后转成QImage用QPainter绘制）、GPU模式（回调拿到数据后转成yuv用QOpenglWidget绘制）。
支持多种硬件加速类型，ffmpeg可选dxva2、d3d11va等，mpv可选auto、dxva2、d3d11va，vlc可选any、dxva2、d3d11va。不同的系统环境有不同的类型选择，比如linux系统有vaapi、vdpau，macos系统有videotoolbox。
解码线程和显示窗体分离，可指定任意解码内核挂载到任意显示窗体，动态切换。
支持共享解码线程，默认开启并且自动处理，当识别到相同的视频地址，共享一个解码线程，在网络视频环境中可以大大节约网络流量以及对方设备的推流压力。国内顶尖视频厂商均采用此策略。这样只要拉一路视频流就可以共享到几十个几百个通道展示。
自动识别视频旋转角度并绘制，比如手机上拍摄的视频一般是旋转了90度的，播放的时候要自动旋转处理，不然默认是倒着的。
自动识别视频流播放过程中分辨率的变化，在视频控件上自动调整尺寸。比如摄像机可以在使用过程中动态配置分辨率，当分辨率改动后对应视频控件也要做出同步反应。
音视频文件无感知自动切换循环播放，不会出现切换期间黑屏等肉眼可见的切换痕迹。
视频控件同时支持任意解码内核、任意画面显示策略、任意视频显示模式。
视频控件悬浮条同时支持句柄、绘制、GPU三种模式，非绝对坐标移来移去。
本地摄像头设备支持指定设备名称、分辨率、帧率进行播放。
录像文件同时支持打开的视频文件、本地摄像头、网络视频流等。
瞬间响应打开和关闭，无论是打开不存在的视频或者网络流，探测设备是否存在，读取中的超时等待，收到关闭指令立即中断之前的操作并响应。
支持打开各种图片文件，支持本地音视频文件拖曳播放。
视频控件悬浮条自带开始和停止录像切换、声音静音切换、抓拍截图、关闭视频等功能。
音频组件支持声音波形值数据解析，可以根据该值绘制波形曲线和柱状声音条，默认提供了声音振幅信号。
代码框架和结构优化到极致，性能彪悍，持续迭代更新升级。
源码支持Qt4、Qt5、Qt6，兼容所有版本。

4.3 视频控件

可动态添加任意多个osd标签信息，标签信息包括名字、是否可见、字号大小、文本文字、文本颜色、标签图片、标签坐标、标签格式（文本、日期、时间、日期时间、图片）、标签位置（左上角、左下角、右上角、右下角、居中、自定义坐标）。
可动态添加任意多个图形信息，这个非常有用，比如人工智能算法解析后的图形区域信息直接发给视频控件即可。图形信息支持任意形状，直接绘制在原始图片上，采用绝对坐标。
图形信息包括名字、边框大小、边框颜色、背景颜色、矩形区域、路径集合、点坐标集合等。
每个图形信息都可指定三种区域中的一种或者多种，指定了的都会绘制。
内置悬浮条控件，悬浮条位置支持顶部、底部、左侧、右侧。
悬浮条控件参数包括边距、间距、背景透明度、背景颜色、文本颜色、按下颜色、位置、按钮图标代码集合、按钮名称标识集合、按钮提示信息集合。
悬浮条控件一排工具按钮可自定义，通过结构体参数设置，图标可选图形字体还是自定义图片。
悬浮条按钮内部实现了录像切换、抓拍截图、静音切换、关闭视频等功能，也可以自行在源码中增加自己对应的功能。
悬浮条按钮对应实现了功能的按钮，有对应图标切换处理，比如录像按钮按下后会切换到正在录像中的图标，声音按钮切换后变成静音图标，再次切换还原。
悬浮条按钮单击后都用名称唯一标识作为信号发出，可以自行关联响应处理。
悬浮条空白区域可以显示提示信息，默认显示当前视频分辨率大小，可以增加帧率、码流大小等信息。
视频控件参数包括边框大小、边框颜色、焦点颜色、背景颜色（默认透明）、文字颜色（默认全局文字颜色）、填充颜色（视频外的空白处填充黑色）、背景文字、背景图片（如果设置了图片优先取图片）、是否拷贝图片、缩放显示模式（自动调整、等比例缩放、拉伸填充）、视频显示模式（句柄、绘制、GPU）、启用悬浮条、悬浮条尺寸（横向为高度、纵向为宽度）、悬浮条位置（顶部、底部、左侧、右侧）。

4.4 内核ffmpeg

支持各种音视频文件、本地摄像头设备，各种视频流网络流。
支持开始播放、暂停播放、继续播放、停止播放、设置播放进度、倍速播放。
可设置音量、静音切换、抓拍图片、录像存储。
自动提取专辑信息比如标题、艺术家、专辑、专辑封面，自动显示专辑封面。
完美支持音视频同步和倍速播放。
解码策略支持速度优先、质量优先、均衡处理、最快速度。
支持手机视频旋转角度显示，比如一般手机拍摄的视频是旋转了90度的，解码显示的时候需要重新旋转90度才是正的。
自动转换yuv420格式，比如本地摄像头是yuyv422格式，有些视频文件是xx格式，统一将非yuv420格式转换，然后再进行处理。
支持硬解码dxva2、d3d11va等，性能极高尤其是大分辨率比如4K视频。
视频响应极低延迟0.2s左右，极速响应打开视频流0.5s左右，专门做了优化处理。
硬解码和GPU绘制组合，极低CPU占用，比海康大华等客户端更优。
支持视频流中的各种音频格式，AAC、PCM、G.726、G.711A、G.711Mu、G.711ulaw、G.711alaw、MP2L2等都支持，推荐选择AAC兼容性跨平台性最好。
视频存储支持yuv、h264、mp4多种格式，音频存储支持pcm、wav、aac多种格式。默认视频mp4格式、音频aac格式。
支持分开存储音频视频文件，也支持合并到一个mp4文件，默认策略是无论何种音视频文件格式存储，最终都转成mp4及aac格式，然后合并成音视频一起的mp4文件。
支持本地摄像头实时视频显示带音频输入输出，音视频录制合并到一个mp4文件。
支持H265编码（现在越来越多的监控摄像头是H265视频流格式）生成视频文件，内部自动识别切换编码格式。
自动识别视频流动态分辨率改动，重新打开视频流。
纯qt+ffmpeg解码，非sdl等第三方绘制播放依赖，gpu绘制采用qopenglwidget，音频播放采用qaudiooutput。
同时支持ffmpeg2、ffmpeg3、ffmpeg4、ffmpeg5版本，全部做了兼容处理。如果需要支持xp需要选用ffmpeg3及以下。

五、相关代码

void FFmpegSaveSimple::run()
{
    
    
    if (!this->open()) {
    
    
        this->close();
        return;
    }

    int ret;
    AVPacket packet;
    qint64 videoCount = 0;
    qint64 startTime = av_gettime();

    while (!stopped) {
    
    
        //读取一帧
        ret = av_read_frame(formatCtxIn, &packet);
        int index = packet.stream_index;
        if (ret < 0) {
    
    
            if (ret == AVERROR_EOF || ret == AVERROR_EXIT) {
    
    
                debug(ret, "文件结束");
                break;
            } else {
    
    
                debug(ret, "读取出错");
                continue;
            }
        }

        //取出输入输出流的时间基
        AVStream *streamIn = formatCtxIn->streams[index];
        AVStream *streamOut = formatCtxOut->streams[index];
        AVRational timeBaseIn = streamIn->time_base;
        AVRational timeBaseOut = streamOut->time_base;

        if (index == videoIndex) {
    
    
            videoCount++;
        }

        //纠正有些文件比如h264格式的没有pts
        if (packet.pts == AV_NOPTS_VALUE) {
    
    
            qreal fps = av_q2d(formatCtxIn->streams[videoIndex]->r_frame_rate);
            FFmpegHelper::rescalePacket(&packet, timeBaseIn, videoCount, fps);
        }

        //延时(防止数据太快给缓存造成太大压力)
        if (index == videoIndex) {
    
    
            AVRational timeBase = {
    
    1, AV_TIME_BASE};
            int64_t ptsTime = av_rescale_q(packet.dts, timeBaseIn, timeBase);
            int64_t nowTime = av_gettime() - startTime;
            if (ptsTime > nowTime) {
    
    
                av_usleep(ptsTime - nowTime);
            }
        }

        //重新调整时间基准
        FFmpegHelper::rescalePacket(&packet, timeBaseIn, timeBaseOut);

        qDebug() << TIMEMS << "发送一帧" << videoCount << packet.flags << packet.pts << packet.dts;
        //ret = av_write_frame(formatCtxOut, &packet);
        ret = av_interleaved_write_frame(formatCtxOut, &packet);
        if (ret < 0) {
    
    
            debug(ret, "写数据包");
            break;
        }

        av_packet_unref(&packet);
    }

    //写文件尾
    av_write_trailer(formatCtxOut);
    this->close();
}

void FFmpegHelper::rescalePacket(AVPacket *packet, AVRational timeBaseIn, qint64 &count, qreal fps)
{
    
    
    count++;
    qreal duration = AV_TIME_BASE / fps;
    packet->pts = (count * duration) / (av_q2d(timeBaseIn) * AV_TIME_BASE);
    packet->dts = packet->pts;
    packet->duration = duration / (av_q2d(timeBaseIn) * AV_TIME_BASE);
}

void FFmpegHelper::rescalePacket(AVPacket *packet, AVRational timeBaseIn, AVRational timeBaseOut)
{
    
    
    //1. av_rescale_q里面调用的av_rescale_q_rnd
    //2. av_rescale_q_rnd里面调用的av_rescale_rnd
    //3. av_packet_rescale_ts对pts/dts/duration三者调用av_rescale_q
#if 1
    packet->pts = av_rescale_q_rnd(packet->pts, timeBaseIn, timeBaseOut, AVRounding(AV_ROUND_NEAR_INF | AV_ROUND_PASS_MINMAX));
    packet->dts = av_rescale_q_rnd(packet->dts, timeBaseIn, timeBaseOut, AVRounding(AV_ROUND_NEAR_INF | AV_ROUND_PASS_MINMAX));
    packet->duration = av_rescale_q(packet->duration, timeBaseIn, timeBaseOut);
#else
    av_packet_rescale_ts(packet, timeBaseIn, timeBaseOut);
#endif
    packet->pos = -1;
}

void FFmpegHelper::rescalePacket(AVPacket *packet, AVRational timeBaseIn, AVRational timeBaseOut, qint64 &duration)
{
    
    
    //qDebug() << TIMEMS << duration << packet->duration << timeBaseIn.den << timeBaseIn.num << timeBaseOut.den << timeBaseOut.num;
    packet->pts = av_rescale_q_rnd(duration, timeBaseIn, timeBaseOut, AV_ROUND_UP);
    packet->dts = packet->pts;//av_rescale_q_rnd(duration, timeBaseIn, timeBaseOut, AV_ROUND_UP);
    //packet->duration = av_rescale_q_rnd(packet->duration, timeBaseIn, timeBaseOut,AV_ROUND_UP);
    packet->pos = -1;
    duration += packet->duration;
}