TensorRT笔记(14)部署TensorRT优化模型

13.部署TensorRT优化模型

创建包含优化推理模型的计划文件后,可以将该文件部署到生产环境中。如何创建和部署计划文件将取决于您的环境。例如,您可能对模型具有专用的推理可执行文件,该可执行文件可加载计划文件,然后使用NVIDIA®TensorRT™Execution API将输入传递给模型,执行模型以进行推理,最后读取模型的输出。
本节讨论如何在某些常见的部署环境中部署TensorRT。

13.1 云端部署

一种常见的用于推理的云部署策略是通过服务器实现模型,该服务器为模型实现HTTP REST或gRPC端点。然后,远程客户端可以通过向该端点发送格式正确的请求来执行推理。该请求将选择一个模型,提供该模型所需的必要输入张量值,并指出应计算哪些模型输出。
要在此部署策略中利用TensorRT优化的模型,不需要进行任何根本性的更改。必须更新推理服务器以接受由TensorRT计划文件表示的模型,并且必须使用TensorRT执行API加载和执行那些计划。可以在《 NVIDIA Triton推理服务器容器发行说明》

猜你喜欢

转载自blog.csdn.net/qq_33287871/article/details/113803859