论文引用：鄢贵海, 卢文岩, 李晓维, 等. 专用处理器比较分析. 中国科学: 信息科学, 2022, 52: 358–375, doi: 10.1360/SSI-2021-0274
Yan G H, Lu W Y, Li X W, et al. Comparative study of the domain-specific processors (in Chinese). Sci Sin Inform,
2022, 52: 358–375, doi: 10.1360/SSI-2021-0274

文章目录

前言
一、数字信号处理器(DSP)
二、图像处理器(GPU)
三、深度学习处理器(AI 芯片)
四、网络处理器(NPU)
总结

前言

所谓PU：即processing unit，最为人们所熟知的当属CPU（central processing unit，中央处理器），它是计算机的运算和控制中心，是信息处理、程序执行的最终执行单元。还有GPU（graphics processing unit，图形处理器）也为人所熟知，它是一种专门用于做图像和图形运算工作的微处理器，在游戏、神经网络、“挖矿”等应用场景中都有广泛的应用。除了CPU和GPU，还有NPU（网络处理器，neural-network processing unit）、DPU（数据处理器、Data Processing Unit）以及TPU（张量处理器，tensor processing unit，一种AI芯片的代表）。
嵌入式神经网络处理器（NPU）采用“数据驱动并行计算”的架构，特别擅长处理视频、图像类的海量多媒体数据。DPU则是5G时代集网络加速为一体的新型数据处理单元。DPU内部融合了RDMA、网络功能、存储功能、安全功能、虚拟化功能。TPU具有专用于深度学习的架构。它利用降低的精度、精心设计的矩阵处理器来减少开销。
除了上述的“XPU”之外，常见的处理器DSP、FPGA等。

专用处理器比较分析一文，从多个角度对比了DSP、GPU以及AI加速器的特点

一、数字信号处理器(DSP)

DSP主要用于数字信号处理；
DSP最大的特点是进行数字信号处理的核，在系统中的地位并不高，通常在功耗、散热等方面不会给予太高的容限，所以功耗敏感、计算位宽对DSP十分重要。
在寻址上，DSP对于数据对齐的方式也最为灵活，设置了大量专门的指令对数据进行对齐操作。
DSP的微体系构建极有特色，体现在：通过VLIW架构提高性能；浮点乘性能突出、指令缓存和程序缓存分离、硬件指令支持一致性管理以及硬件化的带宽管理防止运行阻塞。

二、图像处理器(GPU)

GPU是专门为图形处理设计的专用处理器，而高清的图像、视频数据天然具有数据并行的特征，可以通过高度的并行性来同时计算像素块中所有像素的色度、亮度等数据；
GPU的主要特点在于：采用了单指令多线程(SIMT) 的结构、现场调度做到“零开销(zero-overhead)"、引入特殊超越函数处理单元、隔离难以通用的部分；
对于深度学习训练来说，GPU已经成为加速器的最佳选择。深度学习训练中大多数计算本质上是并行的浮点计算，即大量的矩阵乘法，其最佳性能需要大量的内存带宽和大小，这些需求与HPC的需求非常一致，GPU正好可以提供高精度浮点计算、大量VRAM和并行计算能力；
这里不得不提的是NVIDIA的CUDA：CUDA 是 NVIDIA 的 GPGPU 模型，它使用 C 语言为基础，可以直接以大多数人熟悉的 C 语言，写出在显示芯片上执行的程序，而不需要去学习特定的显示芯片的指令或是特殊的结构。

三、深度学习处理器(AI 芯片)

神经网络处理器（AI芯片）大多针对机器学习中的张量运算展开加速，多基于SIMD 方式实现, 单条指令通常可以完成一个矩阵的乘法运算；
除了矩阵运算，常伴有激活函数处理等非线性操作；
其优势在于：具有大规模张量运算阵列、可以实现可变精度处理以及稀疏处理。

四、网络处理器(NPU)

网络处理器的出现是网络技术发展的必然，随着美国标准化组织于1981 年提出的经典开放系统互连(open systems interconnection, OSI)模型的普及和广泛接受, 在2000 年前后,NPU 还是学术界研究的热点领域；
NPU的结构模块：包括通用处理器核、队列管理单元、路由管理、缓存管理、IO 接口管理等；
其特点在于：控制平面与数据平面相分离、面向数据包处理构造的异构核、高度复杂灵活的编程

总结

最后，以文中的一个表格作为总结：
在这里插入图片描述

读论文——专用处理器比较分析

文章目录

前言

一、数字信号处理器(DSP)

二、图像处理器(GPU)

三、深度学习处理器(AI 芯片)

四、网络处理器(NPU)

总结

猜你喜欢