AI模型推理（4）—— 认识ServingRuntime - 代码天地

AI模型推理（4）—— 认识ServingRuntime

企业开发 2023-06-25 02:45:22 阅读次数: 0

参考：

Serving Runtimes - KServe Documentation Website

模型推理服务化：如何基于Triton开发自己的推理引擎？ - 知乎

GitHub - openai/triton: Development repository for the Triton language and compiler

前言

ServingRuntime（在中文语境里，笔者经常把它叫做“推理运行时”）是KServe的一个核心概念。本文主要讲解ServingRuntime的概念，并重点介绍 Triton 模型服务化框架。

概念讲解

ServingRuntime，笔者对其解释为“加载模型文件、运行推理服务的容器环境”。大白话说就是运行环境里要有能加载模型文件的代码，实际的承载也就是SDK、编译器/解释器这些具体的东西。

Kserve提供了以下几种开箱即用（out-of-the-box）的ServingRuntime，供用户进行使用：

Triton 简介

1、Triton接入层： 图中C API部分。可以看到Triton支持HTTP/REST和GRPC协议。

2、模型仓库：中Model Repository部分。按照Triton的官方文档所述，模型仓库可以是本地的持久化存储介质（磁盘），也可以接入Google Cloud Platform或者AWS S3的模型仓库。还需要注意：Triton的模型仓库支持多模型、也支持模型编排。

3、预编排：图中Pre-Model Scheduler Queues部分。笔者理解这块的核心内容就是模型编排：通过解析请求的URL，从模型仓库查询到编排信息，执行模型编排。

4、前向推理计算： 图中的Framework Backends部分。Triton框架支持TensorFlow, TensorRT, PyTorch, ONNX Runtime推理引擎，也支持用户扩展自己的推理引擎，Triton统一把它们称为“Backend”，笔者翻译为“推理引擎”，请注意：每一种框架都是一种Backend（推理引擎）。Backend（推理引擎）实际上就是各个框架的C++ API，不清楚英伟达有没有做底层的优化。需要注意一点：在Triton以开始启动时，模型仓库中的模型就已经被加载到内存或者显存上了；因此，每一次来推理请求的时候，只需要在内存或者显存中遍历一次模型做前向计算即可（这个是推理服务的常规操作，因为模型的加载非常耗时）。

5、结果返回：对应图中Inference Response部分。即把最终结果返回给客户端。

6、最后，来看Status/Health Metrics Export部分，这块就是Triton支持接入Prometheus监控的地方。

猜你喜欢

转载自blog.csdn.net/chenxy02/article/details/130465393

AI模型推理（4）—— 认识ServingRuntime

AI模型推理框架

基于spark on yarn with gpu的AI模型推理

基于spark on yarn with gpu的AI模型推理

AI模型推理（３）——ModelMesh使用

AI模型推理（２）—— Kserve入门使用

AI基础认识

初步认识Ai

基于SuperMap iDesktopX的交互式AI模型训练与推理

极智AI | TensorRT API 构建模型推理流程

极智AI | TensorRT Parser 构建模型推理方法

【AI实战】大模型 LLM 部署推理框架的 vLLM 应用

AI模型训练推理一定要知道的事情

认识H模型

快速认识OSI模型

认识Netty 线程模型

Blender基础：认识模型

认识盒子模型

【模型推理】openvino 推理实践

盒子模型的初步认识

【深度】工程师必备—AI模型训练+推理优化+嵌入部署

地址标准化服务AI深度学习模型推理优化实践

AI 模型编译器 MegCC 开源，让推理引擎体积变小小小小小……

千元内的AI艾克斯开发板，也能跑GPT模型推理了！

Generative AI 新世界 | 文生图领域动手实践：预训练模型的部署和推理

GPT-4拿下最难数学推理数据集新SOTA！新型Prompting让大模型推理能力狂升！

MiniGPT4系列之三模型推理 (Web UI)：在RTX-3090 Ubuntu服务器推理

LLM推理部署（五）：AirLLM使用4G显存即可在70B大模型上进行推理

xgboost c 模型推理

概念：推理训练模型

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)