高性能部署Yolov5 Triton service - 代码天地

高性能部署Yolov5 Triton service

企业开发 2023-09-18 23:35:16 阅读次数: 0

YOLOV5 optimization on Triton Inference Server

在Triton中部署yolov5目标检测服务, 并分别进行了如下优化：

其中Pipelines分别通过Ensemble和BLS两种方式来实现，Pipelines的infer模块是基于上述1中精简后的TensorRT Engine部署, Postprocess模块则通过Python Backend实现, 工作流参考如何部署Triton Pipelines

相关代码链接

Environment

CPU: 4cores 16GB
GPU: Nvidia Tesla T4
Cuda: 11.6
TritonServer: 2.20.0
TensorRT: 8.2.3
Yolov5: v6.1

Benchmark

一台机器部署Triton Inference Server, 在另外一台机器上通过Perf_analyzer通过gRPC调用接口, 对比测试BLS Pipelines、Ensemble Pipelines、BatchedNMS这三种部署方式在并发数逐渐增加条件下的性能表现。

生成真实数据

python generate_input.py --input_images <image_path> ----output_file <real_data>.json

利用真实数据进行测试

perf_analyzer  -m <triton_model_name>  -b 8  --input-data <real_data>.json  --concurrency-range 1:10  --measurement-interval 10000  -u <triton server endpoint> -i gRPC  -f <triton_model_name>.csv

数据显示BatchedNMS这一方式整体性相对更好，更快在并发数较大的情况下收敛到最优性能，在低时延下达到较高的吞吐; 而Ensemble Pipelines和BLS Pipelines则在并发数较小时性能更好，但是随着并发数的增加，性能下降的幅度更大。

请添加图片描述

选取了六个指标进行对比，每个指标均通过处理，并归一化到0-1区间，数值越大表示性能越好。每个指标的原始释义如下：

Server Queue: 数据在Triton队列中的等待时间
Server Compute Input: Triton处理Input Tensor的时间
Server Compute Infer: Triton执行推理的时间
Server Compute Output: Triton处理Output Tensor的时间
latency: 端到端延迟的90分位数
throughput: 吞吐

请添加图片描述

REFERENCES

猜你喜欢

转载自blog.csdn.net/weixin_41817841/article/details/127598778

高性能部署Yolov5 Triton service

利用Triton Pipelines部署yolov5 service

修改yolov5的detect层，提高Triton推理服务的性能

Triton教程 -- 利用Triton部署你自己的模型

SmartOS基础知识及Triton部署简述

CUDA编程基础与Triton模型部署实践

Triton_server部署学习笔记

Triton教程 --- Triton架构

Triton 学习

Triton教程 --- Triton 响应缓存

yolo模型部署——tensorRT模型加速+triton服务器模型部署

模型部署系列 | 01: 基于Triton部署Resnet18(附完整代码，建议收藏)

NVIDIA's Triton/TensorRT的Transformer语言模型性能评测与优化指南

使用Triton部署chatglm2-6b模型 | 京东云技术团队

triton测试demo

运行 Triton 示例

TensorRT triton start up

Triton教程 -- 模型仓库

Triton教程 --- 模型管理

Triton教程 -- 快速开始

Triton教程 --- 优化

Triton教程---模型设置

Triton教程---存储代理

Triton Server 快速入门

service （5）

chatglm2-6b模型在9n-triton中部署并集成至langchain实践 | 京东云技术团队

TensorRT triton002 triton 参数配置笔记

Error caught was: No module named ‘triton‘

Triton教程 --- 动态批处理

1.triton镜像使用

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

面试爱奇艺，竟然挂在第5轮……

scala方法和函数的区别

NYIST--2018大一新生第一次周赛题解

java如何通过client客戶端http实现get/ post请求传递json参数到restful 服务接口

RabbitMQ 队列类型

2018-2019-1 20165311 20165329 20165334 实验一开发环境的熟悉

iOS打包工具配置相应的文件路径一键打包到指定位置

【每日一题】替换空格

【转载】FPGA配置方式

旅行青蛙

每日归档

更多

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)