TensorRT trtexec command common parameters

build phase

--onnx=./model.onnx # 指定onnx模型文件名
--minShapes=input0:1x3x224x224 # 指定动态输入形状的范围最小值
--optShapes=input0:8x3x224x224 # 指定动态输入形状的范围常见值
--maxShapes=input0:16x3x224x224 # 指定动态输入形状的范围最大值
--inputIOFormats=fp16:chw # 指定模型输入精度与数据排布格式,不指定默认fp32:chw
--outputIOFormats=fp16:chw # 指定模型输输出精度与数据排布格式,不指定默认fp32:chw
--memPoolSize=1024 # 优化过程中可使用显存最大值
--fp16 # 使能fp16精度
--int8 # 使能int8精度
--calib=xxx # 指定int8校准缓存文件
--noTF32 # 禁用TF32精度
--best # 使能所有精度寻找最佳性能
--sparsitu # 稀疏性等属性
--saveEngine=./model.engine # 指定输出引擎文件名
--buildOnly # 只构建引擎,不运行
--verbose # 打印详细信息
--tacticSources=-CUDNN,+CUBLAS # 指定构建所启用的库,比如示例中表示使用CUBLAS不使用CUDNN
--timingCacheFile=timeing.cache # 指定输出优化计时缓冲文件名
--profilingVerbosity=detailed # 构建期间保留更多逐层信息

run phase

--loadEngine=./model.engine # 读取engine文件
--shapes=input0:0:1x3x224x224    # 指定输入张量形状
--loadInputs=intput0:input0.binary # 指定特定的input
--warmUp=1000 # 热身阶段最短运行时间(单位:ms)
--duration=10 # 测试阶段最短运行时间(单位:s)
--iterations=100 # 指定测试阶段运行的最新迭代次数
--sleepTime=10 # 延迟执行(单位:ms)
--useCudaGraph # 使用CUDAGraph来捕获和执行推理过程
--noDataTransfers # 关闭Host与Device之间的数据传输
--streams=2 # 使用多个stream运行推理
--dumpProfile # 输出每一层的profile信息到终端
--dumpLayerInfer # 输出engine的层信息到终端
--dumpOutput # 输出最后一次推理的输出结果到终端
--exportProfile=layerProfile.json # 每一层的profile信息保存成json文件
--exportLayerInfo=layerInfo.json # engine的层信息保存成json文件
--exportOutput=output.json # 最后一次推理的输出结果保存成json文件
--device=N # 选择执行的GPU
--plugins=xxx.so # 加载插件库

Supongo que te gusta

Origin blog.csdn.net/weicao1990/article/details/130827602
Recomendado
Clasificación