学习Shader 一些容易困惑的地方

在读者学习shader的过程中，会看到一些所谓的专业术语，这些术语出现频率很高，以至于如果没有对其有基本的认识，会使得初学者总是感到非常困惑。

1、什么是OpenGL/DirectX

开发者直接访问GPU是件非常麻烦事情，需要和各种寄存器，显存打交道

而图像编程接口API在这些硬件得基础上实现了一层抽象

OpenGL和DirectX就是这些图像应用编程接口API，这些接口用于渲染二维或三维图形。可以说，这些接口架起了上层应用程序和底层GPU沟通桥梁。

概括来说，我们得应用程序运行在CPU上。应用程序可以通过调用OpenGL或DirecrX得图形接口将渲染所需的数据，如顶点数据，纹理数据，材质参数等数据存储在显存中的特定区域。随后，开发者可以通过图像编程接口发出渲染命令（Draw Call)，它们将会被显卡驱动翻译成GPU能够理解的代码，进行真正的绘制。

一个显卡除了有图像处理单元GPU外，还拥有自己的内存，这个内存通常被称为显存，GPU可以在显存中存储任何数据，但对于渲染来说一些数据类型是必须的，例如用于屏幕显示的图像缓冲。深度缓冲等。

因为显卡的存在，几乎所有的GPU都既可以和OpenGL合作，也可以和DirectX一起工作。从显卡的角度出发，实际上它只需要和显卡驱动打交道就可以了。而显卡驱动就好像一个中介者，负责和两方（图像编程接口和GPU）打交道。因此一个显卡制作商为了让它们让他们的显卡可以同时和OpenGL、DirectX合作，就必须提供支持OpenGL和DirectX接口的显卡驱动。

2、什么是HLSL、GLSL、CG

我们上面讲到了很多可编程的着色器阶段，如顶点着色器、片元着色器等。这些着色器的可编程性在于，我们可以使用一种特定的语言来编写程序，就好比我们可以用C#来写游戏逻辑一样。

在可编程管线出现之前，为了编写着色器代码，开发者们学习汇编语言。为了给开发者们打开更方便的大门，就出现了更高级的着色语言（Shading Language)。着色语言是专门用于编写着色器的，常用的着色语言有DirectX的HLSL(High Level Shading Language)、OpenGL的GLSL（OpenGL shading Language）以及NVIDIA的CG（C for Graphic ）。HLSL、GLSL、CG都是高级语言，但这种高级是相对于汇编语言来说的，而不是像C#相对C的高级那样，这些语言会被编译成与机器无关的汇编语言，也被称为中间语言（Intermediate Language,IL）。这些中间语言再交给显卡驱动来翻译成真正的机器语言，即GPU可以理解的语言。

对于一个初学者来说，一个最常见的问题就是，他应该选择哪种语言？

GLSL的优点在于它的跨平台性，它可以在Windows、Linux、Mac甚至移动平台等多种平台上工作，但这种跨平台性是由于OpenGL没有提供着色器编译器，而是由显卡驱动来完成着色器的编译工作。也就是说，只要显卡驱动支持对GLSL的编译他就可以运行。这种做法的好处在于，由于提供商完全了解自己的硬件构造，他们知道怎样做可以发挥出最大的作用。换句话说，GLSL是依赖硬件，而非操作系统层级的。但这也意味着GLSL的编译结果将取决于硬件供应商。要知道，世界上有很多供应商--NVIDIA、ATI等，他们对GLSL的编译实现不尽相同，这可能会造成编译结果不一致的情况，因为这完全取决于供应商的做法。

而对于HLSL，是由微软控制着色器的翻译，就算使用了不同的硬件，同一个着色器的翻译结果也是一样的（前提是版本相同）。但也因此支持HLSL的平台相对比较有限，几乎完全是微软自己的产品，如Windows、Xbox360、PS3等。这是因为在其他平台上没有可以编译的HLSL的编译器。

CG则是真正意义上的跨平台。它会根据平台的不同，编译成相应的中间语言。CG语言的跨平台性很大原因取决于与微软的合作，这也导致CG语言的语法和HLSL非常相像，CG语言可以无缝移植成HLSL代码。但缺点是可能无法完全发挥出OpenGL的最新特性。

对于Unity平台，我们同样可以选择使用哪种语言。在Unity Shader中，我们可以选择使用“CG/HLSL”或者“GLSL”。带引号是因为Unity里的这些着色语言并不是真正意义上的对应的着色语言，尽管它们的语法几乎一样。以Unity CG为例，你有时会发现有些CG语法在Unity Shader中是不支持的。

3、什么是Draw Call

Draw call本身的含义很简单，就是CPU调用图像编程接口，如OpenGL中的glDrawElements命令或者DirectX中的DrawIndexedPrimitive命令，以命令GPU进行渲染的操作。

一个常见的误区是，Draw Call中造成性能问题的元凶是GPU，认为GPU上的状态切换时耗时的，其实不是的，真正“拖后腿”其实的时CPU。

在深入了解Draw Call之前，我们先来看一下CPU和GPU之间的流水线化时怎么实现的，即它们时如何相互独立一起工作的。

问题一：CPU和GPU是如何实现并行工作的？

如果没有流水线化，那么CPU需要等到GPU完成上一个渲染任务结束才能再次发送渲染命令。但这种方法显然回造成效率低下。因此，我们需要让CPU和GPU可以并行工作。而解决方法就是使用一个命令缓冲区（Command Buffer)。

命令缓冲区包含了一个命令队列，由CPU向其中添加命令，而由GPU从中读取命令，添加和读取的过程是互相独立的。命令缓冲区使得CPU和GPU可以相互独立工作。当CPU需要渲染一些对象时，它可以向命令缓冲区中添加命令，而当GPU完成了上一次的渲染任务后，它就可以从命令队列中再取出一个命令并执行它。

命令缓冲区中的命令有很多种类，而Draw Call是其中一种，其他命令还有改变渲染状态等（例如改变使用的着色器，使用不同的纹理等）。

问题二：为什么Draw Call多了回影响帧率？

我们先来做一个实验：请创建10000个小文件，每个文件的大小为1KB，然后把他们从一个复制到另一个文件夹。你会发现，尽管这些文件的空间总和不超过10MB，但要花费很长时间。现在我们再创建一个独立的文件，它的大小是10MB，然后也把它从一个文件夹复制到另一个文件夹。而这次复制的时间却少了很多！这是为什么呢？明明它们所包含的内容大小是一样的。原因在于，每一个复制动作需要额外的操作，例如分配内存、创建各种元数据等。如你所见，这些操作将造成很多额外的性能开销，如果我们复制了很多小文件，那么这个开销将会很大。

渲染的过程虽然和上面的实验有很大不同，但从感性角度上是很类似的。在每次调用Draw Call之前，CPU需要向GPU发送很多内容，包括数据、状态和命令等。在这一阶段，CPU需要完成很多工作，例如检查渲染状态等。而一旦CPU完成了这些准备工作，GPU就可以开始本次的渲染。GPU的渲染能力是很强的，渲染200个还是2000个三角网络网格通常没有什么区别，因此渲染速度往往快于Draw Call上，造成CPU的过载。

问题三：如何减少Draw Call？

尽管减少Draw Call的方法有很多，但我们这里仅讨论使用批处理（Batching）的方法。

我们讲过，提交大量很小的Draw Call会造成CPU的性能瓶颈，即CPU把时间都花费在准备Draw Call的工作上了。那么，一个很显然的优化方法就是把很多小的Draw Call合并成一个大的DrawCall，这就是批处理的思想。

需要注意的是，由于我们需要在CPU的内存中合并网格，而合并的过程是需要消耗时间的。因此，批处理技术更适合于那么静态的物体，例如不会移动的大地、石头等，对于这些静态物体我们只需要合并一次即可。当然，我们也可以对动态物体进行批处理。但是，由于这些物体是不断运动的，因此每一帧都需要重新进行合并然后再发给GPU，这对空间和时间都会造成一定的影响。

在游戏开发过程中，为了减少Draw Call的开销，有两点需要注意。

（1）避免使用大量很小的网格。当不可避免地需要使用很小的网格结构时，考虑是否可以合并它们。

（2）避免使用过多的材质。尽量在不同的网格之间公用同一个材质。

4、什么是固定管道渲染

固定函数的流水线（Fixed-Function Pipeline），也简称为固定管线，通常是指在较旧的GPU上实现的渲染流水线。这种流水线只给开发者提供一些配置操作，但开发者没有对流水线阶段的完全控制权。

固定管线通常提供了一系列接口，这些接口包含了一个函数入口点（Function Entry Points）集合，这些函数入口点会匹配GPU上的一个特定的逻辑功能。开发者们通过这些接口来控制渲染流水线。换句话说，固定渲染管线是只可配置的管线。一个形象的比喻是，我们在使用固定管线进行渲染时，就好像在控制电路上的多个开关，我们可以选择打开或者关闭一个开关，但永远无法控制整个电路的排布。

随着时代的发展，GPU流水线越来约朝着更高的灵活性和可控性方向发展，可编程渲染管线应运而生。我们在上面看到了许多可编程的流水线阶段，如顶点着色器、片元着色器，这些可编程的着色器阶段可以说是GPU进化最重要的贡献。

在GPU发展的过程中，为了继续提供固定管线的接口抽象，一些显卡驱动的开发者们使用了更加通用的着色架构，即使用可编程的管线来模拟固定管线。这是为了在提供可编程渲染管线的同时，可以让那些已经熟悉了固定管线的开发者们继续使用固定管线进行渲染。例如OpenGL2.0没有真正的固定管线的硬件支持下，依靠系统的可编程管线功能来模拟固定管线的处理过程。但随着GPU的发展，固定管线已经逐渐退出历史舞台。例如，OpenGL3.0是最后即支持可编程管线又完全支持固定管线编程接口的版本，在OpenGL3.2中，Core Profile就完全移除了固定管线的概念。

因此，如果读者不是为了对较旧的设备进行兼容，不建议继续使用固定管线的渲染方式。

5、你明白什么是Shader了吗

Shader其实就是专门用来渲染图形的一种技术，通过shader，我们可以自定义显卡渲染画面的算法，使画面达到我们想要的效果。小到每一个像素点，大到整个屏幕。

我们之所以要花很大篇幅来讲述GPU的渲染流水线，是因为Shader所在的阶段就是渲染流水线的一部分，更具体来说，Shader就是：

GPU流水线上一些可高度编程的阶段，而由着色器编译出来的最终代码是会在GPU上运行的（对于固定管线的渲染来说，着色器有时等同于一些特定的渲染设置）；

有一些特定类型的着色器，如顶点着色器、片元着色器等；

依靠着色器我们可以控制流水线中的渲染细节，例如用顶点着色器来进行顶点变化以及传递数据，用片元着色器来进行逐像素的渲染。

但同时，我们也要明白，要得到出色的游戏画面是需要包括Shader在内的所有渲染流水线阶段的同时参与才可完成：设置适当的渲染状态，使用合适的混合函数，开启还是关闭深度测试/深度写入等。

Unity作为一个出色的编辑工具，为我们提供了一个既可以方便地编写着色器，同时又可设置渲染状态的地方：Unity Shader。

参考书籍《Unity Shader入门精要》

学习Shader 一些容易困惑的地方

猜你喜欢