读论文——专用处理器比较分析

论文引用:鄢贵海, 卢文岩, 李晓维, 等. 专用处理器比较分析. 中国科学: 信息科学, 2022, 52: 358–375, doi: 10.1360/SSI-2021-0274
Yan G H, Lu W Y, Li X W, et al. Comparative study of the domain-specific processors (in Chinese). Sci Sin Inform,
2022, 52: 358–375, doi: 10.1360/SSI-2021-0274


前言

  • 所谓PU:即processing unit,最为人们所熟知的当属CPU(central processing unit,中央处理器),它是计算机的运算和控制中心,是信息处理、程序执行的最终执行单元。还有GPU(graphics processing unit,图形处理器)也为人所熟知,它是一种专门用于做图像和图形运算工作的微处理器,在游戏、神经网络、“挖矿”等应用场景中都有广泛的应用。除了CPU和GPU,还有NPU(网络处理器,neural-network processing unit)、DPU(数据处理器、Data Processing Unit)以及TPU(张量处理器,tensor processing unit,一种AI芯片的代表)。
  • 嵌入式神经网络处理器(NPU)采用“数据驱动并行计算”的架构,特别擅长处理视频、图像类的海量多媒体数据。DPU则是5G时代集网络加速为一体的新型数据处理单元。DPU内部融合了RDMA、网络功能、存储功能、安全功能、虚拟化功能。TPU具有专用于深度学习的架构。 它利用降低的精度、精心设计的矩阵处理器来减少开销。
  • 除了上述的“XPU”之外,常见的处理器DSP、FPGA等。

专用处理器比较分析一文,从多个角度对比了DSP、GPU以及AI加速器的特点

一、数字信号处理器(DSP)

  • DSP主要用于数字信号处理;
  • DSP最大的特点是进行数字信号处理的核,在系统中的地位并不高,通常在功耗、散热等方面不会给予太高的容限,所以功耗敏感、计算位宽对DSP十分重要。
  • 在寻址上,DSP对于数据对齐的方式也最为灵活,设置了大量专门的指令对数据进行对齐操作。
  • DSP的微体系构建极有特色,体现在:通过VLIW架构提高性能;浮点乘性能突出、指令缓存和程序缓存分离、硬件指令支持一致性管理以及硬件化的带宽管理防止运行阻塞。

二、图像处理器(GPU)

  • GPU是专门为图形处理设计的专用处理器,而高清的图像、视频数据天然具有数据并行的特征,可以通过高度的并行性来同时计算像素块中所有像素的色度、亮度等数据;
  • GPU的主要特点在于:采用了单指令多线程(SIMT) 的结构、现场调度做到“零开销(zero-overhead)"、引入特殊超越函数处理单元、隔离难以通用的部分;
  • ​ 对于深度学习训练来说,GPU已经成为加速器的最佳选择。深度学习训练中大多数计算本质上是并行的浮点计算,即大量的矩阵乘法,其最佳性能需要大量的内存带宽和大小,这些需求与HPC的需求非常一致,GPU正好可以提供高精度浮点计算、大量VRAM和并行计算能力;
  • 这里不得不提的是NVIDIA的CUDA:CUDA 是 NVIDIA 的 GPGPU 模型,它使用 C 语言为基础,可以直接以大多数人熟悉的 C 语言,写出在显示芯片上执行的程序,而不需要去学习特定的显示芯片的指令或是特殊的结构。

三、深度学习处理器(AI 芯片)

  • 神经网络处理器(AI芯片)大多针对机器学习中的张量运算展开加速,多基于SIMD 方式实现, 单条指令通常可以完成一个矩阵的乘法运算;
  • 除了矩阵运算,常伴有激活函数处理等非线性操作;
  • 其优势在于:具有大规模张量运算阵列、可以实现可变精度处理以及稀疏处理。

四、网络处理器(NPU)

  • 网络处理器的出现是网络技术发展的必然,随着美国标准化组织于1981 年提出的经典开放系统互连(open systems interconnection, OSI)模型的普及和广泛接受, 在2000 年前后,NPU 还是学术界研究的热点领域;
  • NPU的结构模块:包括通用处理器核、队列管理单元、路由管理、缓存管理、IO 接口管理等;
  • 其特点在于:控制平面与数据平面相分离、面向数据包处理构造的异构核、高度复杂灵活的编程

总结

最后,以文中的一个表格作为总结:
在这里插入图片描述


猜你喜欢

转载自blog.csdn.net/weixin_49513223/article/details/127436381