视频编码解码基本知识

最近在做摄像头视频的数据处理，得到了网络相机的.h264格式的数据，需要做解码处理，由于对视频的编码解码原理不太了解，因此查找资料总结一下

为什么要进行视频编码？

视频编码又称为视频压缩，伴随着用户对高清视频的需求量的增加，视频多媒体的视频数据量也在不断加大。如果未经压缩，这些视频很难应用于实际的存储和传输。而视频中是有很多冗余信息的，以记录数字视频的YUV分量格式为例，YUV分别代表亮度与两个色差信号。例如对于现有的PAL制电视系统，其亮度信号采样频率为13.5MHz；色度信号的频带通常为亮度信号的一半或更少，为6.75MHz或3.375MHz。以4：2：2的采样频率为例，Y信号采用13.5MHz，色度信号U和V采用6.75MHz采样，采样信号以8bit量化，则可以计算出数字视频的码率为：13.5*8 + 6.75*8 + 6.75*8= 216Mbit/s。如此大的数据量如果直接进行存储或传输将会遇到很大困难，因此必须采用压缩技术以减少码率。数字化后的视频信号能进行压缩主要依据两个基本条件：

l 数据冗余。例如如空间冗余、时间冗余、结构冗余、信息熵冗余等，即图像的各像素之间存在着很强的相关性。消除这些冗余并不会导致信息损失，属于无损压缩。

l 视觉冗余。人眼的一些特性比如亮度辨别阈值，视觉阈值，对亮度和色度的敏感度不同，使得在编码的时候引入适量的误差，也不会被察觉出来。可以利用人眼的视觉特性，以一定的客观失真换取数据压缩。这种压缩属于有损压缩。

数字视频信号的压缩正是基于上述两种条件，有效地去除视频数据中冗余信息，实现视频数据在互联网中快速传输和离线的存储。使得视频数据量得以极大的压缩，有利于传输和存储。

主流的编解码标准的压缩对象都是YUV图像

常见的编码格式

在过去的几十年中，一系列的视频编码标准被广泛的应用。目前已有的视频压缩标准有很多种，包括国际标准化组织（International Organization for Standardization, ISO）/国际电工技术委员会（International Electrotechnical Commission, IEC）制定的MPEG-1、MPEG-2、MPEG-4标准；国际电信联盟电信标准化部门（International Telecommunication Union-Telecom, ITU-T）制定的H.261、H.263。

2003年3月，ITU-T和ISO/IEC 正式公布了H.264/MPEG-4 AVC视频压缩标准。H.264作为目前应用最为广泛的视频编码标准，在提高编码效率和灵活性方面取得了巨大成功，使得数字视频有效地应用在各种各样的网络类型和工程领域。为了在关键技术上不受国外牵制，同时也不用交大量的专利费用，中国也制定了AVS系列标准，可以提供与H.264/AVC相当的编码效率。

近年来随着用户体验的不断升级，高清（1920x1080）和超高清（3840x2160）视频的应用越来越广泛。相对于标清视频，高清视频分辨率更大也更清晰，但是相应的数据量也随之增加。在存储空间和网络带宽有限的情况下，现有的视频压缩技术已经不能满足现实的应用需求。为了解决高清及超高清视频急剧增长的数据率给网络传输和数据存储带来的冲击，ITU-T和ISO/IEC联合制定了具有更高压缩效率的新一代视频压缩标准HEVC（High Efficiency Video Coding）。

视频文件生成方式

一个完整的视频文件是由音频和视频2 部分组成的。常见的AVI、RMVB、MKV、ASF、WMV、MP4、3GP、FLV等文件其实只能算是一种封装标准。

H264、Xvid等就是视频编码格式，MP3、AAC等就是音频编码格式。例如：将一个Xvid视频编码文件和一个MP3视频编码文件按AVI封装标准封装以后，就得到一个AVI后缀的视频文件，这个就是我们常见的AVI视频文件了。由于很多种视频编码文件、音频编码文件都符合AVI封装要求，则意味着即使是AVI后缀，也可能里面的具体编码格式不同。因此出现在一些设备上，同是AVI后缀文件，一些能正常播放，还有一些就无法播放。

扫描二维码关注公众号，回复： 1870565 查看本文章

同样的情况也存在于其他容器格式。即使RMVB、WMV等也不例外。部分技术先进的容器还可以同时封装多个视频、音频编码文件，甚至同时封装进字幕，如MKV封装格式。MKV文件可以做到一个文件包括多语种发音、多语种字幕，适合不同人的需要。例如：MKV文件只要制作的时候同时加入国语和粤语发音的音轨和对应的简体、繁体字幕，播放的时候，你可以独立选择国语或粤语发音，并根据自己需要选择简体或繁体字幕，也可以选择不显示字幕。相当方便。

因此，视频转换需要设置的本质就是：A设置需要的视频编码、B设置需要的音频编码、C选择需要的容器封装。一个完整的视频转换设置都至少包括了上面3个步骤。常见的组合方式如表所示

常见的组合方式
封装容器	视频流编码格式	音频流编码格式
AVI	Xvid	MP3
AVI	Divx	MP3
Matroska（后缀就是 MKV）	Xvid	MP3
Matroska（后缀就是 MKV）	Xvid	AAC
Matroska（后缀就是 MKV）	H264	AAC
MP4	Xvid	MP3
MP4	H264	AAC
3GP	H.263	AAC

视频编解码关键技术

MPEG-4/H.264等编解码算法的工作机制基本都是混合编码，主要处理模块包括：预测、变换、量化和熵编码等。工作原理大同小异，图像帧的编码模式主要有帧内和帧间两种方式。帧内包括预测、变换、量化和熵编码等，帧间编码包括运动估计、运动补偿、变换、量化和熵编码等。

预测：通过帧内预测和帧间预测降低视频图像的空间冗余和时间冗余。

变换：通过从时域到频域的变换，去除相邻数据之间的相关性，即去除空间冗余。

量化：通过用更粗糙的数据表示精细的数据来降低编码的数据量，或者通过去除人眼不敏感的信息来降低编码数据量。

扫描：将二维变换量化数据重新组织成一维的数据序列。

熵编码：根据待编码数据的概率特性减少编码冗余。