GPU推理和端侧NPU推理的一处不同 - 代码天地

GPU推理和端侧NPU推理的一处不同

业界资讯 2023-06-05 04:31:05 阅读次数: 0

端侧AI推理主要使用NPU完成，为了在性能，功耗和面积和通用性之间取得平衡，主流NPU采用了加速器架构，将算子固化在硬件中，并辅以可编程单元执行一些自定义算子/长尾算子兼顾灵活性。在计算方面，为了提高存储使用效率和加速计算，在满足计算精度的前提下，NPU普遍采用定点计算单元实现核心算子，以较低的带宽需求和较快的计算速度达到推理精度的要求，这样就需要在数据的预处理阶段和后处理阶段分别对数据做量化和反量化操作，以满足NPU计算单元对定点数据计算的需要，NPU的工作模型如下图所示：

而GPU则不同，GPU的计算单元天然支持浮点计算，不需要执行量化和反量化的操作，模型推理更直接，以我的显卡为例，从下图可以看出，它的浮点算力远远高于定点算力：

使用GPU对模型推理，不需要量化和反量化操作：

推理过程对量化的不同要求，可能会产生一个有意思的结果，就是推理的模型精度表现可能会有所不同，这里所说的精度表

猜你喜欢

转载自blog.csdn.net/tugouxp/article/details/131019847

GPU推理和端侧NPU推理的一处不同

推理

香橙派5使用NPU加速yolov5的实时视频推理（一）

百度端侧推理引擎 Paddle Lite 新增 ARM 端图像预处理库

深度学习移动端部署方案 --- MNN端侧推理引擎

pytorch gpu推理、onnxruntime gpu推理、tensorrt gpu推理比较，及安装教程，有详细代码解释

rknn如何用多个npu进行模型推理

阿里开源！轻量级深度学习端侧推理引擎 MNN

开源背后 | 面对端侧推理引擎的挑战，阿里工程师如何应对？

mnn-llm: 大语言模型端侧CPU推理优化

【模型推理】谈谈 GPU 并行推理的几个方式

SpringBoot 和 SpringMVC的异常统一处理

@ExceptionHandler和@ControllerAdvice统一处理异常

Bart的训练和推理

总结一处笔误

ShaderNN 2.0 ：基于GPU全图形栈的高效轻量移动端推理引擎

建造一种由基于案例推理和规则推理相结合的求解系统

基于spark on yarn with gpu的AI模型推理

基于spark on yarn with gpu的AI模型推理

YOLOv5-推理时使用GPU

使用onnxruntime-gpu 模型推理

5月7日云栖精选夜读 | 阿里开源！轻量级深度学习端侧推理引擎 MNN

ROS接收不同类型消息-----在子函数中统一处理

统一处理不同类型的枚举类

端侧GPU opencl image内存和算子开发

Spring Boot使用AOP搭建统一处理请求日志和使用log4j记录不同级别的日志

使用指定编号的GPU进行模型的训练和推理,并且用gpustat进行监控显存

AI实战：pytorch、 tensorflow 对比之推理时性能、GPU占用对比（一）：DenseNet

SpringBoot：整合日志（使用AOP统一处理WEB端传参）

香橙派5使用NPU加速yolov5的实时视频推理（二）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)