视频基础知识

电影的原理

电影的发明要比电视要早，我们先来简单了解电影的原理。

人眼在观察景物时，光信号传入大脑神经，需经过一段短暂的时间，光的作用结束后，视觉形象并不立即消失，视觉的这一现象则被称为“视觉暂留”或“视觉惰性”。视觉暂留是由视神经的反应速度造成的。而视觉暂留正是动画、电影等视觉媒体形成的根据。

摄像机拍摄时，会通过感光元件将连续的画面记录在胶片上，在放映时，电影胶片在放映机中以每秒24格画面匀速转动，放映机通过光线将其投射到幕布上，一系列静态画面就会因视觉暂留作用而造成一种连续的视觉印象，这就是电影。动画的原理也类似。

每个画面称为1帧（frame，f），每秒钟录制或播放的画面数量被称为帧率（f/s，fps），每秒24张画面，我们称为每秒24帧，帧率为 24fps。电影一般每秒是24帧，动画12帧就可以。当然采用更高的帧率会有更好的观影效果，但是电影行业一般都是24帧每秒。

PS. 关于电影帧率和游戏帧率的区别：为什么24帧的电影很顺畅，30帧的游戏没法儿玩？

电视的原理

电视机本身的成像原理和电影不同，电视机没有胶片，而是通过信号成像的。早期的电视都是模拟信号电视，摄像机将光信号转为电信号，之后通过电磁波或电流信号发送给电视机。以前的电视机都是 CRT（阴极射线显像管）显示器（俗称大屁股显示器，现在很少见到了），显示器的荧光屏上涂满了按一定方式紧密排列的红、绿、蓝三种颜色的荧光粉点或荧光粉条，称为荧光粉单元，相邻的红、绿、蓝荧光粉单元各一个为一组，这就是像素。电视机收到电视信号后，可以根据电信号，通过内部的电子枪发射电子撞击到荧光屏上，让荧光粉单元发光，就形成了图像。具体原理比较复杂，这里不再做过多介绍。

电子枪发射电子时，是一行一行发射的，这个发射过程被称为扫描。对于一张1920*1080的图像，则需要扫描1080行，才能将一幅图像完全显示。

隔行扫描与逐行扫描

由于早期的模拟信号带宽限制，电视领域采用了隔行扫描的方法，将一帧图像分成两场来扫，第一场称奇数场（即第1，3，5。。。行），而第二场（偶数场）只偶数行，通过两场扫描完成原来一帧图像扫描的行数，这样就可以将带宽减少一半。由于这个过程非常快，人眼的感知并不明显。

不过后来随着信号带宽的增加，逐行扫描普及开来，但是于此同时，数字电视和新的显示器技术也迅速发展，CRT显示器被淘汰了。可以说，现在的显示器（包括手机，电脑屏幕）都是逐行扫描。逐行扫描的英文单词为 Progressive，我们现在经常说的 720P，1080P 的视频，这个字母 P 就是逐行扫描的缩写。

现在常见的视频分辨率有：

640 * 360：360P
800 * 480：480P，也称标清视频
1280 * 720：720P，也称 HD/高清视频
1920 * 1080：1080P，也称 HD/高清或 Full HD/全高清视频
2560 * 1440：2K 视频

黑白与彩色电视

早期的电视都是黑白的。如果显示器只需要显示黑白画面，那么我们根本不需要RGB三个分量，只需要一个灰色分量，调整其灰度值即可。实际原理比这复杂，但是本质上差不多。

在建立彩色广播电视的过程中，人们曾试图使用RGB模式来发送视频模拟信号，显然，这种方式需要的模拟信号带宽是黑白模式的三倍甚至更多。为了降低信号带宽，人们发明了另一种彩色信号传输模式：YUV 模式，这种技术只需要使用和黑白电视同样的带宽即可传输彩色信号，这种信号被称为复合视频信号，直到今天还在使用。

还记得我们之前将 JPEG 压缩时提到的 YUV 色彩模式吗，其实就是从彩色电视这里演变来的。由于彩色电视发明的时间比图形化的计算机早，所以后来计算机中的数字视频依然使用 YUV 色彩模式，只是细节上不同。

由于各国使用的彩色电视标准不太一样，例如美国和欧美使用的 NTSC标准，中国和欧洲使用的 PAL 标准，实际上会基于 YUV 模式进行一些修改，所以有时 YUV 指的是确切的色彩模式，有时候指的是个统称，根据语境区别即可。YUV 的子模式包括彩色电视模拟信号中的 YUV/YIQ/YPbPr，用在计算机图像和视频领域的 YCbCr 等等。

NTSC

NTSC：美国国家电视标准委员会，世界上第一个彩色电视标准就是这个组织发布的，包含很多关于色彩，图像和视频方面的标准，对后来的彩色电视，显示器，图像视频领域影响深远。

数字视频介绍

最早的摄像机都是模拟摄像机，即拍摄的画面会被转为电信号，依然是模拟信号，后来才有了数字摄像机，可将模拟信号转为数字信号，写入存储设备（这段描述不是很严谨，但这不是我们讨论的重点）。

我们介绍图像压缩时讲过，照相机可以将光信号最终转化为 RAW 格式图片。摄像机录制视频时，是否就是录制了一张张 RAW 格式图片呢？

不是的。我们计算一下，假设摄像机拍摄的视频分辨率是1920 * 1080，那么使用RGB模式，比特深度8bit，一个像素 3Byte，那么一张图片就是6MB，一秒钟24帧的话，一秒钟的数据就是144MB，一分钟就是8640MB，约为8G。

如果使用 RGB 模式编码，数据量太大了。我们之前讲彩色电视原理时提到，彩色电视模拟信号是 YUV 模式，其实摄像机/摄像头拍摄的数据同样是使用 YUV 格式进行编码的。当然本质上是从RGB转成了YUV，整个拍摄，AD转换，编码过程极其复杂的，但是我们只需要记住一点，数字摄像机/摄像头录制的原始视频，使用的编码方式是 YUV 编码，即视频中都是 YUV 数据。和 PCM 音频，RAW 图像类似，可以说 YUV数据就是视频原始数据。

我们前面说过，计算机图像和视频中使用的 YCbCr，但是叫起来太不方便，所以一般还是叫做 YUV，我们了解其中的区别即可。

另外，还是要再强调一下，显示器最终在显示的时候，都是采样 RGB 色彩模式，而 YUV 模式只是为了减小数据量。