理解视频格式(三)

三、视频格式

      格式是什么?
      我们前面已经知道了什么是视频,以及视频是怎样产生,又是怎样被我们看到的。那什么叫格式呢?其实格式也很简单,格式(Format)指就是视频的种类,不同的视频类型就叫不同的视频格式。如果也要来个口号的话,就是“格式就是种类”。
      我们前面知道CCD经过扫描,获得了视频画面,那所谓的“不同的视频类型”又是怎么产生的呢?好,我们下面就来看看同样是CCD产生的画面,怎么就变出“不同类型”的。 

①摄像机的组成
     下边是一台摄像机,我们按功能区域把它给拆开,得到四个部分:镜头、CCD、编码、记录。镜头不用说了。CCD我们也说过了,它通过扫描获得画面。编码(Encoding),或者叫编码处理器,就是把画面变成信号编码。记录,其实就是个录像机,把画面编码写进磁带、硬盘或者存储卡里。

        怎么样,摄像机结构很简单吧。你一定猜到了,导致产生不同视频类型的部分就是编码部分。不同的编码处理器,就产生不同的编码,而这些不同编码,就是形成了不同的视频格式。那可不可以这样说:如果换一个编码处理器,那就能产生另一种视频格式了?哈哈,还就是这样。你装一个DV编码器,你的摄像机就是DV机,你装一个DVCAM编码器,你的机器就是DVCAM。当然,小摄像机的编码部分是不可更换的,在有的广播级摄像机上就可以,它们后面的编码记录部分是可更换的,装上Beta就是Beta机,装上DVCAM就是DVCAM机。换一个编码处理器,那就怎么样,摄像机结构很简单吧。你一定猜到了,导致产生不同视频类型的部分就是编码部分。不同的编码处理器,就产生不同的编码,而这些不同编码,就是形成了不同的视频格式。那可不可以这样说:如果换一个编码处理器,那就能产生另一种视频格式了?哈哈,还就是这样。你装一个DV编码器,你的摄像机就是DV机,你装一个DVCAM编码器,你的机器就是DVCAM。当然,小摄像机的编码部分是不可更换的,在有的广播级摄像机上就可以,它们后面的编码记录部分是可更换的,装上Beta就是Beta机,装上DVCAM就是DVCAM机。

②采样
       既然我们知道了,编码器是产生视频格式的关键,那我们就来看看视频格式到底是怎么生产出来的。
      看下图,这是摄像机各部分对应的视频图像的处理流程。我们看到镜头和CCD部分把拍摄的画面变成了RGB像素(我们用4个像素来举例)。然后CCD把生成的RGB像素发送给编码部分。
      哇塞,编码部分果然有很多事情要做。首先,它把RGB转换成YUV,YUV我们前面已经介绍过了,复习一下,Y是亮度分量,U和V是色度分量。然后编码器进行对YUV进行采样,生成码流,然后进行压缩。最后送给记录部分,写进磁带里。
      编码部分的工作实际上就是转换成YUV、对YUV进行采样、压缩,3个工作。
     你一定会觉得奇怪,除了RGB转换成YUV,像素信息好像也没什么变化嘛,采样也没有改什么,顶多压缩一下就写进磁带了。是啊,这张图似乎不太能说明什么问题,我们看下页那张。

       看下图。注意编码处理的部分,转换YUV和上面那张图一样,但采样部分就变了。经过采样后,Y分量都还在,但几个U分量和V分量不见了,具体就是U2、U4、V1、V3不见了。去哪里了?很抱歉,扔掉了。什么!不要啦?是的,不要了。
       为什么要把几个分量扔掉,难道不需要吗?其实不是不需要,只是我们的磁带装不下那么多信息,于是就在采样的过程中,把一些色度信息剔除掉,从而把整体信息容量减少,这样可使传输和处理都相对容易些。扔掉了色度信息,色彩不就失真了吗?是的,失真是必然的,但如果能控制在可以接受且不易辨认的范围内就没有问题。可是为什么不扔掉几个Y呢?因为Y作为亮度分量承载的是图像信息,简单地讲,它代表的是形状,如果形状信息扔了,图像就会变形;而色彩信息则没那么严重,即便全扔了还能看黑白电视,所以要牺牲只能牺牲色彩。可到时播放的时候,电视机仍然是需要RGB信息啊,你把一部分色彩分量扔了,到时你拿什么转换回RGB给电视机?这个问题不着急,现在我们才刚开始编码呢,到后面解码的时候自有办法。
       仔细看一下采样后的4个像素,Y都在有4个,U剩2个,V剩2个。我们就把这样的采样叫做4:2:2采样,意思就是“Y比U比V”的比例。你可以回头看前面那张图,知道怎么叫了吧,对了,那就是传说中的4:4:4采样。 4:4:4采样就是什么东西都没扔,因此是最保真的,当然,需要的信息存储空间也是最大的。

       怎么样,这个所谓的采样很容易理解吧。因为采样扔的都是色度信息,所以也被称作“色度采样”或“色彩采样”。色度采样是视频格式中的重要部分,在每个视频格式的参数中必然有该格式所使用的采样,而且都是“Y:U:V”的写法。采样大都以4个像素作为一个采样单位,而且Y都是不扔的,所以基本都是“4:X:X”这样的形式。
      注意,这个“色度采样”和前面的“CCD采样率”是不一样的。色度采样是对色彩的处理,而CCD采样率是“拾取”CCD上的图像信息。
      好,我们来看4:1:1采样。如图,经采样后,4个像素只剩下了1个U分量和1个V分量,因此就叫4:1:1。呵,够狠的,色度信息一下被扔掉了3/4。是啊,NTSC制式的DV就是这种采样。那我们PAL制的DV据说是4:2:0采样,是不是比他们的N制的强呢?我们就接着看4:2:0采样,一会儿就知道答案了。

        4:2:0采样比前面三种复杂点,但也不难理解。看图,4:2:0采样按2排共8个像素作为1个采样单位。我们知道采样的关键就是怎么扔色度信息。先看第1排,U分量扔掉2个,V分量全扔;再看第2排,U分量全扔,V分量扔掉2个。扔完之后,我们单看第1排,可以叫它4:2:0;单看第2排,可以叫它4:0:2;如果我们两排一起看,可以叫它8:2:2,对吧。为了和其他的采样形式在名称上统一,这种采样就用第1排的4:2:0来代表了。因此,也容易造成误解,从字面看仿佛V分量都扔光了。
       这就是我们PAL制DV采用的色度采样,它和4:1:1一样,都扔掉了3/4的色度信息,因此没有哪个更好,很遗憾,难兄难弟而已。从色度采样我就能知道,为什么我们DV的色彩比不了电视台的大摄像机,色彩都采成这样了,能“出彩”吗。 

③ 压缩
     编码器完成色度采样之后,形成的编码对于磁带而言依然太大了。有没有搞错?都采成这样了还大啊!没办法,视频就这样。采样完的1帧DV画面(720x576)有约600KB大小,1秒15MB,1分钟将近1GB(一张DVD容量4.7GB);而一盘60分钟的DV磁带容量才13GB,不压缩往哪放啊。如图,采样后的视频码流被送进一个“榨汁机”里进行压缩,被榨成“脱水蔬菜”,这样就好装进“罐头”里了。
      针对不同的“罐头”尺寸和“蔬菜”种类,“榨汁机”的种类和“压榨力度”也不一样。有些罐头容量比较大,榨汁的力度就可以小点,榨出的蔬菜还带点水分;如果罐头比较小,而蔬菜又比较多,那榨出来就是“菜干”了,就像方便面里那种。 ^_^
      所谓压缩,就是通过某种数据运算将画面中一些“冗余的”部分去除,在保证画面质量的同时降低数据量。虽然理论上存在无损压缩,但无损压缩的数据量跟不压缩相差无几。因此在实际应用中,我们使用的压缩都是有损压缩,意思就是,画面的质量是一定会下降的,只是下降的幅度或多或少而已。

       从“榨汁方法”来讲,视频压缩分两种:一种叫帧内压缩(Intraframe Compression),另一种叫帧间压缩(Interframe Compression)。帧内压缩就是每帧自己压自己的,跟前面和后面的帧都没有关系。帧间压缩就是根据某一帧前面和后面的帧进行压缩,如下图所示,如果在连续几帧中,不变化的画面部分将作为“没用的”部分被去掉,只留下那些“有用的”部分。 

     压缩方式是视频格式中的第三个重要部分(前面两个是CCD扫描方式和色度采样)。使用什么样的压缩方式,将直接影响视频格式的质量。在分析压缩前,我们先介绍几个名词:
   ①I帧(Intra-frame),读作“挨针”。这个词在关于视频压缩的文章中经常出现,显得很深奥的样子,其实,所谓I帧就是“关键帧”,意思就是这帧很关键。为什么关键呢?因为这帧里包含了进行压缩所需要的全部信息。比如上面“帧间压缩”的第一个画面,就是一个I帧。
   ②GOP(Group of Pictures),有人翻译作“图片群”或“图片组”,我们直接读“居欧劈”即可。GOP指的就是一组连续的帧,比如6帧GOP就是连续6帧画面,15帧GOP就是连续15帧画面。很容易理解哈。 

   ③ 短GOP(Short GOP),指只有一帧的GOP,而且这帧是I帧(“挨针”)。比如上面图中“帧内压缩”的每个画面都是一个短GOP,即每帧都是I帧。短GOP的提法比较少用,一般都是直接说I帧。
   ④ 长GOP(Long GOP),超过一帧的GOP,比如6帧GOP,15帧GOP。长GOP习惯写作LGOP。通常来讲,如果提到GOP指的都是LGOP。
   ⑤B帧 (Bi-direction frame) 和P帧 (Predicted frame),B帧和P帧都是没有完整画面信息的帧,它们只在帧间压缩中才会存在。比如上面图中“帧间压缩”的第二个画面。

    好了,现在可以开讲压缩了。首先是帧内压缩。帧内压缩就是以帧为单位进行压缩,每一帧都是独立作业,帧之间不互相影响,因此帧内压缩在很大程度上就相当于图片压缩,每一帧就是一张图片。比如最常见的压缩方式M-JPEG,就是JPEG图片压缩方式在视频压缩上的应用。由于每帧是独立压缩,且每帧都是I帧,因此帧内压缩也被称为“I帧压缩”。DV格式使用的就是I帧压缩。

     相对于帧内压缩而言,帧间压缩就复杂一些。首先,帧间压缩不是以帧为单位,而是以LGOP为单位。意思就是说,帧间压缩不是一帧一帧地压,而是一组一组地压。如图,这是一个典型的“15帧LGOP帧间压缩”。15帧作为一个LGOP,以一个I帧领头,I帧保留了后面14帧中的“没用的”的信息;然后后面的B帧和P帧把“没用的”内容扔掉,只留下“有用的”,于是B帧和P帧就能变得很小;从而在压缩率上就能够获得比帧内压缩更高的压缩率。由于帧间压缩都是以LGOP为单位进行压缩,因此又被称为“LGOP压缩”。HDV格式使用的“MPEG-2压缩”就是一种LGOP压缩,索尼Z1使用的是“15帧LGOP压缩”,JVC HD100使用的是“6帧LGOP压缩”。还有AVCHD的“MPEG-4压缩”和现在流行的“H.264压缩”都是LGOP压缩。 

       I帧压缩(帧内)和LGOP压缩(帧间)的出发点是不一样。I帧压缩是根据每帧的“画面内容”进行压缩,由于每帧独立,无论拍摄的是运动镜头还是固定镜头,对压缩率并没有影响。LGOP压缩是根据“帧与帧之间的关系”进行压缩,如果是静止画面,I帧后面的那些B帧和P帧几乎什么信息都可以不留;如果是运动画面, B帧和P帧只需要保留那些变化的即可。如果用一句话来区分这两种压缩方式,可以说:“I帧压缩是静态压缩,LGOP压缩是动态压缩”。从算法理论上讲,这两种压缩方式并没有谁优谁 劣,只是方式不用而已。但从压缩率上讲,LGOP压缩的压缩率就比I帧压缩要高很多。

     如图,I帧压缩后的4帧画面的容量大约可以装得下LGOP压缩后的15帧画面。这就是为什么HDV画面可以装进DV磁带里的原因,压得跟DV一样小了,当然就可以装进去了。也正因为这样,LGOP压缩在视频传输领域被广泛应用,数字电视网信号、DVD、HD DVD、蓝光DVD(Blue-ray disc)、以及常见的网络流媒体(WMV、DivX、MP4……)都是使用LGOP压缩。

    但是,即使是同一种压缩方式里,也有不同的压缩率和压缩质量,比如同是MPEG-2压缩,DVD的压缩率就比HDV要高很多,但质量就比不了HDV;你可以理解成“榨汁力度”不同,DVD是“浓缩型”,HDV是“原汁型”。
至于说装“菜干”的“罐头”是磁带、硬盘、光盘、还是存储卡,并不重要,这些都只是存储介质而已,就像“罐头”是铁罐还是玻璃罐一样。重要的是我们前面讲的三样东西:扫描方式、色度采样、压缩。这三样保证了,放进瓦罐还是玻璃罐都无所谓。
色度采样的比较我们前面讲了,4:2:2保留的色彩信息比4:2:0要多,因此必然比4:2:0要好。但压缩怎么比呢,两种压缩方式使用的是不同的压缩原理。是的,在理论上的确不好比,但我们可以从它们在实际应用的表现,也就是解码(Decoding)之后的画面质量来对比,这就是后面的内容了。
转载自邓东的《理解视频格式》

发布了49 篇原创文章 · 获赞 138 · 访问量 30万+

猜你喜欢

转载自blog.csdn.net/lz0499/article/details/103448890