Understanding video formats (III)

Third, the video format

      What format?
      We already know what a video, and the video is how to produce, and how are we to see. What is it that format? In fact, very simple format, format (Format) refers to is the kind of video, different video types called different video formats. If you have come to a slogan, it is the "format is kind."
      We know that in front of CCD is scanned to obtain a video screen, the so-called "different video types," is how to generate it? Well, we take a look at the following picture CCD is also produced, how it becomes a "different type". 

① the composition of the camera
     Below is a video camera, according to functional areas we take it apart to obtain four parts: the lens, CCD, coding, records. Needless to say the lens. CCD we said before, it is obtained by scanning the screen. Encoding (Encoding), or call the encoding processor, the signal is encoded into the picture. Record, in fact, a VCR, the picture coding written to tape, disk or memory card.

        How, the camera structure is very simple. You must have guessed, result in different types of video coding part is the part. Different encoding processor, generates a different code, and these different encoding, is the formation of different video formats. Can it this way: If you change a coding processor, it will be able to produce another video format up? Haha, still it is. You install a DV encoder, your DV camcorder that machine, you install a DVCAM encoder, your machine is DVCAM. Of course, a small encoded portion of the camera is not replaceable, it may be on some broadcast cameras, recording coding portion behind them is exchangeable, and is fitted with Beta Beta machine is fitted with DVCAM DVCAM machine. For a coding processor, then how about the camera structure is very simple. You must have guessed, result in different types of video coding part is the part. Different encoding processor, generates a different code, and these different encoding, is the formation of different video formats. Can it this way: If you change a coding processor, it will be able to produce another video format up? Haha, still it is. You install a DV encoder, your DV camcorder that machine, you install a DVCAM encoder, your machine is DVCAM. Of course, a small encoded portion of the camera is not replaceable, it may be on some broadcast cameras, recording coding portion behind them is exchangeable, and is fitted with Beta Beta machine is fitted with DVCAM DVCAM machine.

② sampling
       Now that we know, is the key to producing a video encoder format, then we take a look at the video format in the end is how produced.
      See the figure, each part of the camera which is a processing flow corresponding to the video image. We see that the lens and CCD picture photographing portion becomes a pixel RGB (we use four pixels for example). The CCD is then sent to the encoding generated RGB pixel portion.
      Wow, coding section really has a lot to do. First, it converts the RGB to YUV, YUV we have already introduced, refresher, Y is the luminance component, U and V are chrominance components. The encoder then be sampled YUV to generate a code stream, and then compressed. Finally, to the recording section, written on tape.
      Coding portion of the work is actually converted to YUV, YUV to sampling, compression, three working.
     You must be wondering, in addition to RGB conversion into YUV, pixel information seems to have no change Well, the sample did not change anything, at most, to compress it written into the tape. Yes ah, this figure does not seem able to explain what the problem, we see next page goes on.

 

       看下图。注意编码处理的部分,转换YUV和上面那张图一样,但采样部分就变了。经过采样后,Y分量都还在,但几个U分量和V分量不见了,具体就是U2、U4、V1、V3不见了。去哪里了?很抱歉,扔掉了。什么!不要啦?是的,不要了。
       为什么要把几个分量扔掉,难道不需要吗?其实不是不需要,只是我们的磁带装不下那么多信息,于是就在采样的过程中,把一些色度信息剔除掉,从而把整体信息容量减少,这样可使传输和处理都相对容易些。扔掉了色度信息,色彩不就失真了吗?是的,失真是必然的,但如果能控制在可以接受且不易辨认的范围内就没有问题。可是为什么不扔掉几个Y呢?因为Y作为亮度分量承载的是图像信息,简单地讲,它代表的是形状,如果形状信息扔了,图像就会变形;而色彩信息则没那么严重,即便全扔了还能看黑白电视,所以要牺牲只能牺牲色彩。可到时播放的时候,电视机仍然是需要RGB信息啊,你把一部分色彩分量扔了,到时你拿什么转换回RGB给电视机?这个问题不着急,现在我们才刚开始编码呢,到后面解码的时候自有办法。
       仔细看一下采样后的4个像素,Y都在有4个,U剩2个,V剩2个。我们就把这样的采样叫做4:2:2采样,意思就是“Y比U比V”的比例。你可以回头看前面那张图,知道怎么叫了吧,对了,那就是传说中的4:4:4采样。 4:4:4采样就是什么东西都没扔,因此是最保真的,当然,需要的信息存储空间也是最大的。

 

       怎么样,这个所谓的采样很容易理解吧。因为采样扔的都是色度信息,所以也被称作“色度采样”或“色彩采样”。色度采样是视频格式中的重要部分,在每个视频格式的参数中必然有该格式所使用的采样,而且都是“Y:U:V”的写法。采样大都以4个像素作为一个采样单位,而且Y都是不扔的,所以基本都是“4:X:X”这样的形式。
      注意,这个“色度采样”和前面的“CCD采样率”是不一样的。色度采样是对色彩的处理,而CCD采样率是“拾取”CCD上的图像信息。
      好,我们来看4:1:1采样。如图,经采样后,4个像素只剩下了1个U分量和1个V分量,因此就叫4:1:1。呵,够狠的,色度信息一下被扔掉了3/4。是啊,NTSC制式的DV就是这种采样。那我们PAL制的DV据说是4:2:0采样,是不是比他们的N制的强呢?我们就接着看4:2:0采样,一会儿就知道答案了。

        4:2:0采样比前面三种复杂点,但也不难理解。看图,4:2:0采样按2排共8个像素作为1个采样单位。我们知道采样的关键就是怎么扔色度信息。先看第1排,U分量扔掉2个,V分量全扔;再看第2排,U分量全扔,V分量扔掉2个。扔完之后,我们单看第1排,可以叫它4:2:0;单看第2排,可以叫它4:0:2;如果我们两排一起看,可以叫它8:2:2,对吧。为了和其他的采样形式在名称上统一,这种采样就用第1排的4:2:0来代表了。因此,也容易造成误解,从字面看仿佛V分量都扔光了。
       这就是我们PAL制DV采用的色度采样,它和4:1:1一样,都扔掉了3/4的色度信息,因此没有哪个更好,很遗憾,难兄难弟而已。从色度采样我就能知道,为什么我们DV的色彩比不了电视台的大摄像机,色彩都采成这样了,能“出彩”吗。 

 

③ 压缩
     编码器完成色度采样之后,形成的编码对于磁带而言依然太大了。有没有搞错?都采成这样了还大啊!没办法,视频就这样。采样完的1帧DV画面(720x576)有约600KB大小,1秒15MB,1分钟将近1GB(一张DVD容量4.7GB);而一盘60分钟的DV磁带容量才13GB,不压缩往哪放啊。如图,采样后的视频码流被送进一个“榨汁机”里进行压缩,被榨成“脱水蔬菜”,这样就好装进“罐头”里了。
      针对不同的“罐头”尺寸和“蔬菜”种类,“榨汁机”的种类和“压榨力度”也不一样。有些罐头容量比较大,榨汁的力度就可以小点,榨出的蔬菜还带点水分;如果罐头比较小,而蔬菜又比较多,那榨出来就是“菜干”了,就像方便面里那种。 ^_^
      所谓压缩,就是通过某种数据运算将画面中一些“冗余的”部分去除,在保证画面质量的同时降低数据量。虽然理论上存在无损压缩,但无损压缩的数据量跟不压缩相差无几。因此在实际应用中,我们使用的压缩都是有损压缩,意思就是,画面的质量是一定会下降的,只是下降的幅度或多或少而已。

       从“榨汁方法”来讲,视频压缩分两种:一种叫帧内压缩(Intraframe Compression),另一种叫帧间压缩(Interframe Compression)。帧内压缩就是每帧自己压自己的,跟前面和后面的帧都没有关系。帧间压缩就是根据某一帧前面和后面的帧进行压缩,如下图所示,如果在连续几帧中,不变化的画面部分将作为“没用的”部分被去掉,只留下那些“有用的”部分。 

     压缩方式是视频格式中的第三个重要部分(前面两个是CCD扫描方式和色度采样)。使用什么样的压缩方式,将直接影响视频格式的质量。在分析压缩前,我们先介绍几个名词:
   ①I帧(Intra-frame),读作“挨针”。这个词在关于视频压缩的文章中经常出现,显得很深奥的样子,其实,所谓I帧就是“关键帧”,意思就是这帧很关键。为什么关键呢?因为这帧里包含了进行压缩所需要的全部信息。比如上面“帧间压缩”的第一个画面,就是一个I帧。
   ②GOP(Group of Pictures),有人翻译作“图片群”或“图片组”,我们直接读“居欧劈”即可。GOP指的就是一组连续的帧,比如6帧GOP就是连续6帧画面,15帧GOP就是连续15帧画面。很容易理解哈。 

   ③ 短GOP(Short GOP),指只有一帧的GOP,而且这帧是I帧(“挨针”)。比如上面图中“帧内压缩”的每个画面都是一个短GOP,即每帧都是I帧。短GOP的提法比较少用,一般都是直接说I帧。
   ④ 长GOP(Long GOP),超过一帧的GOP,比如6帧GOP,15帧GOP。长GOP习惯写作LGOP。通常来讲,如果提到GOP指的都是LGOP。
   ⑤B帧 (Bi-direction frame) 和P帧 (Predicted frame),B帧和P帧都是没有完整画面信息的帧,它们只在帧间压缩中才会存在。比如上面图中“帧间压缩”的第二个画面。

    好了,现在可以开讲压缩了。首先是帧内压缩。帧内压缩就是以帧为单位进行压缩,每一帧都是独立作业,帧之间不互相影响,因此帧内压缩在很大程度上就相当于图片压缩,每一帧就是一张图片。比如最常见的压缩方式M-JPEG,就是JPEG图片压缩方式在视频压缩上的应用。由于每帧是独立压缩,且每帧都是I帧,因此帧内压缩也被称为“I帧压缩”。DV格式使用的就是I帧压缩。

     相对于帧内压缩而言,帧间压缩就复杂一些。首先,帧间压缩不是以帧为单位,而是以LGOP为单位。意思就是说,帧间压缩不是一帧一帧地压,而是一组一组地压。如图,这是一个典型的“15帧LGOP帧间压缩”。15帧作为一个LGOP,以一个I帧领头,I帧保留了后面14帧中的“没用的”的信息;然后后面的B帧和P帧把“没用的”内容扔掉,只留下“有用的”,于是B帧和P帧就能变得很小;从而在压缩率上就能够获得比帧内压缩更高的压缩率。由于帧间压缩都是以LGOP为单位进行压缩,因此又被称为“LGOP压缩”。HDV格式使用的“MPEG-2压缩”就是一种LGOP压缩,索尼Z1使用的是“15帧LGOP压缩”,JVC HD100使用的是“6帧LGOP压缩”。还有AVCHD的“MPEG-4压缩”和现在流行的“H.264压缩”都是LGOP压缩。 

       I帧压缩(帧内)和LGOP压缩(帧间)的出发点是不一样。I帧压缩是根据每帧的“画面内容”进行压缩,由于每帧独立,无论拍摄的是运动镜头还是固定镜头,对压缩率并没有影响。LGOP压缩是根据“帧与帧之间的关系”进行压缩,如果是静止画面,I帧后面的那些B帧和P帧几乎什么信息都可以不留;如果是运动画面, B帧和P帧只需要保留那些变化的即可。如果用一句话来区分这两种压缩方式,可以说:“I帧压缩是静态压缩,LGOP压缩是动态压缩”。从算法理论上讲,这两种压缩方式并没有谁优谁 劣,只是方式不用而已。但从压缩率上讲,LGOP压缩的压缩率就比I帧压缩要高很多。

     如图,I帧压缩后的4帧画面的容量大约可以装得下LGOP压缩后的15帧画面。这就是为什么HDV画面可以装进DV磁带里的原因,压得跟DV一样小了,当然就可以装进去了。也正因为这样,LGOP压缩在视频传输领域被广泛应用,数字电视网信号、DVD、HD DVD、蓝光DVD(Blue-ray disc)、以及常见的网络流媒体(WMV、DivX、MP4……)都是使用LGOP压缩。

    但是,即使是同一种压缩方式里,也有不同的压缩率和压缩质量,比如同是MPEG-2压缩,DVD的压缩率就比HDV要高很多,但质量就比不了HDV;你可以理解成“榨汁力度”不同,DVD是“浓缩型”,HDV是“原汁型”。
至于说装“菜干”的“罐头”是磁带、硬盘、光盘、还是存储卡,并不重要,这些都只是存储介质而已,就像“罐头”是铁罐还是玻璃罐一样。重要的是我们前面讲的三样东西:扫描方式、色度采样、压缩。这三样保证了,放进瓦罐还是玻璃罐都无所谓。
色度采样的比较我们前面讲了,4:2:2保留的色彩信息比4:2:0要多,因此必然比4:2:0要好。但压缩怎么比呢,两种压缩方式使用的是不同的压缩原理。是的,在理论上的确不好比,但我们可以从它们在实际应用的表现,也就是解码(Decoding)之后的画面质量来对比,这就是后面的内容了。
转载自邓东的《理解视频格式》

发布了49 篇原创文章 · 获赞 138 · 访问量 30万+

Guess you like

Origin blog.csdn.net/lz0499/article/details/103448890