序文
Du 先生がtensorRT 高パフォーマンス導入コースをゼロから立ち上げたので、以前読んだことがありますが、メモを取っていなかったので、多くのことを忘れていました。今度はもう一度やって、メモを取ります。
このコースでは、tensorRT の基礎、つまりモデル推論中の動的形状の具体的な実装ポイントを学びます
コースの概要は以下のマインドマップで確認できます
1. ダイナミックな形状
動的シェイプとは、モデルのコンパイル時にダイナミック レンジ [LH] を指定することを指し、推論中に L<=shape<=H を許可します。
完全畳み込みネットワークでは実際にそのような要件があり、入力形状は推論中に動的に変更でき、制限される必要はありません。
動的シェイプのケースコードは次のとおりです。
// tensorRT include
#include <NvInfer.h>
#include <NvInferRuntime.h>
// cuda include
#include <cuda_runtime.h>
// system include
#include <stdio.h>
#include <math.h>
#include <iostream>
#include <fstream> // 后面要用到ios这个库
#include <vector>
using namespace std;
class TRTLogger : public nvinfer1::ILogger{
public:
virtual void log(Severity severity, nvinfer1::AsciiChar const* msg) noexcept override{
if(severity <= Severity::kINFO){
printf("%d: %s\n", severity, msg);
}
}
} logger;
nvinfer1::Weights make_weights(float* ptr, int n){
nvinfer1::Weights w;
w.count = n;
w.type = nvinfer1::DataType::kFLOAT;
w.values = ptr;
return w;
}
bool build_model(){
TRTLogger logger;
// ----------------------------- 1. 定义 builder, config 和network -----------------------------
nvinfer1::IBuilder* builder = nvinfer1::createInferBuilder(logger);
nvinfer1::IBuilderConfig* config = builder->createBuilderConfig();
nvinfer1::INetworkDefinition* network = builder->createNetworkV2(1);
// 构建一个模型
/*
Network definition:
image
|
conv(3x3, pad=1) input = 1, output = 1, bias = True w=[[1.0, 2.0, 0.5], [0.1, 0.2, 0.5], [0.2, 0.2, 0.1]], b=0.0
|
relu
|
prob
*/
// ----------------------------- 2. 输入,模型结构和输出的基本信息 -----------------------------
const int num_input = 1;
const int num_output = 1;
float layer1_weight_values[] = {
1.0, 2.0, 3.1,
0.1, 0.1, 0.1,
0.2, 0.2, 0.2
}; // 行优先
float layer1_bias_values[] = {
0.0};
// 如果要使用动态shape,必须让NetworkDefinition的维度定义为-1,in_channel是固定的
nvinfer1::ITensor* input = network->addInput("image", nvinfer1::DataType::kFLOAT, nvinfer1::Dims4(-1, num_input, -1, -1));
nvinfer1::Weights layer1_weight = make_weights(layer1_weight_values, 9);
nvinfer1::Weights layer1_bias = make_weights(layer1_bias_values, 1);
auto layer1 = network->addConvolution(*input, num_output, nvinfer1::DimsHW(3, 3), layer1_weight, layer1_bias);
layer1->setPadding(nvinfer1::DimsHW(1, 1));
auto prob = network->addActivation(*layer1->getOutput(0), nvinfer1::ActivationType::kRELU); // *(layer1->getOutput(0))
// 将我们需要的prob标记为输出
network->markOutput(*prob->getOutput(0));
int maxBatchSize = 10;
printf("Workspace Size = %.2f MB\n", (1 << 28) / 1024.0f / 1024.0f);
// 配置暂存存储器,用于layer实现的临时存储,也用于保存中间激活值
config->setMaxWorkspaceSize(1 << 28);
// --------------------------------- 2.1 关于profile ----------------------------------
// 如果模型有多个输入,则必须多个profile
auto profile = builder->createOptimizationProfile();
// 配置最小允许1 x 1 x 3 x 3
profile->setDimensions(input->getName(), nvinfer1::OptProfileSelector::kMIN, nvinfer1::Dims4(1, num_input, 3, 3));
profile->setDimensions(input->getName(), nvinfer1::OptProfileSelector::kOPT, nvinfer1::Dims4(1, num_input, 3, 3));
// 配置最大允许10 x 1 x 5 x 5
// if networkDims.d[i] != -1, then minDims.d[i] == optDims.d[i] == maxDims.d[i] == networkDims.d[i]
profile->setDimensions(input->getName(), nvinfer1::OptProfileSelector::kMAX, nvinfer1::Dims4(maxBatchSize, num_input, 5, 5));
config->addOptimizationProfile(profile);
nvinfer1::ICudaEngine* engine = builder->buildEngineWithConfig(*network, *config);
if(engine == nullptr){
printf("Build engine failed.\n");
return false;
}
// -------------------------- 3. 序列化 ----------------------------------
// 将模型序列化,并储存为文件
nvinfer1::IHostMemory* model_data = engine->serialize();
FILE* f = fopen("engine.trtmodel", "wb");
fwrite(model_data->data(), 1, model_data->size(), f);
fclose(f);
// 卸载顺序按照构建顺序倒序
model_data->destroy();
engine->destroy();
network->destroy();
config->destroy();
builder->destroy();
printf("Done.\n");
return true;
}
vector<unsigned char> load_file(const string& file){
ifstream in(file, ios::in | ios::binary);
if (!in.is_open())
return {
};
in.seekg(0, ios::end);
size_t length = in.tellg();
std::vector<uint8_t> data;
if (length > 0){
in.seekg(0, ios::beg);
data.resize(length);
in.read((char*)&data[0], length);
}
in.close();
return data;
}
void inference(){
// ------------------------------- 1. 加载model并反序列化 -------------------------------
TRTLogger logger;
auto engine_data = load_file("engine.trtmodel");
nvinfer1::IRuntime* runtime = nvinfer1::createInferRuntime(logger);
nvinfer1::ICudaEngine* engine = runtime->deserializeCudaEngine(engine_data.data(), engine_data.size());
if(engine == nullptr){
printf("Deserialize cuda engine failed.\n");
runtime->destroy();
return;
}
nvinfer1::IExecutionContext* execution_context = engine->createExecutionContext();
cudaStream_t stream = nullptr;
cudaStreamCreate(&stream);
/*
Network definition:
image
|
conv(3x3, pad=1) input = 1, output = 1, bias = True w=[[1.0, 2.0, 0.5], [0.1, 0.2, 0.5], [0.2, 0.2, 0.1]], b=0.0
|
relu
|
prob
*/
// ------------------------------- 2. 输入与输出 -------------------------------
float input_data_host[] = {
// batch 0
1, 1, 1,
1, 1, 1,
1, 1, 1,
// batch 1
-1, 1, 1,
1, 0, 1,
1, 1, -1
};
float* input_data_device = nullptr;
// 3x3输入,对应3x3输出
int ib = 2;
int iw = 3;
int ih = 3;
float output_data_host[ib * iw * ih];
float* output_data_device = nullptr;
cudaMalloc(&input_data_device, sizeof(input_data_host));
cudaMalloc(&output_data_device, sizeof(output_data_host));
cudaMemcpyAsync(input_data_device, input_data_host, sizeof(input_data_host), cudaMemcpyHostToDevice, stream);
// ------------------------------- 3. 推理 -------------------------------
// 明确当前推理时,使用的数据输入大小
execution_context->setBindingDimensions(0, nvinfer1::Dims4(ib, 1, ih, iw));
float* bindings[] = {
input_data_device, output_data_device};
bool success = execution_context->enqueueV2((void**)bindings, stream, nullptr);
cudaMemcpyAsync(output_data_host, output_data_device, sizeof(output_data_host), cudaMemcpyDeviceToHost, stream);
cudaStreamSynchronize(stream);
// ------------------------------- 4. 输出结果 -------------------------------
for(int b = 0; b < ib; ++b){
printf("batch %d. output_data_host = \n", b);
for(int i = 0; i < iw * ih; ++i){
printf("%f, ", output_data_host[b * iw * ih + i]);
if((i + 1) % iw == 0)
printf("\n");
}
}
printf("Clean memory\n");
cudaStreamDestroy(stream);
cudaFree(input_data_device);
cudaFree(output_data_device);
execution_context->destroy();
engine->destroy();
runtime->destroy();
}
int main(){
if(!build_model()){
return -1;
}
inference();
return 0;
}
私たちの分析の焦点は次の 3 つの部分に分かれています。
1. ネットワーク構造:
1つ目はネットワーク構造の違いです。前回はLinear層を使用しましたが、今回は代わりにconv層を使用します。同時に活性化もreluに変更され、畳み込み層が追加されますaddConvolution
。
2. モデルの構築:
モデル構築フェーズでは、動的形状モデルの入力形状は として定義されますnvinfer1::Dims4(-1, num_input, -1, -1)
。ここで-1
、 は寸法が動的であること、つまり実行時に任意の長さを受け入れることができることを示します。
さらに、動的形状モデルには、最適化プロファイル、つまりprofile
オブジェクトも設定する必要があります。このオブジェクトは、モデル入力に可能な最小、最大、最適な形状を定義し、profile->setDimensions
コード内のメソッドを使用して設定します。
3. モデル推論
execution_context->setBindingDimensions
推論段階では、動的形状は、次のメソッドを使用して、各推論の前に入力データの形状を設定するだけで済みます。
実行結果は次のとおりです。
TRT の出力は Pytorch の出力と一致しており、動的形状推論プロセス全体に問題がないことがわかります。
コードのハイライト:
1. OptimizationProfile は最適化プロファイルです。入力形状が変更できる範囲を指定するために使用されます。最適化という言葉に惑わされないでください。
2. onnx モデルの入力次元が -1 の場合は、次元が動的であることを意味します。それ以外の場合は、次元がクリアであり、クリア ディメンションの minDims、optDims、および maxDims が同じである必要があることを意味します。
動的形状に関する知識ポイントは次のとおりです ( Du 氏より)
1.ネットワークを構築する場合:
- 1.1.モデルを定義するとき、入力次元は -1 として指定する必要があります。そうしないと、次元は動的になりません。次の 2 つの点に注意してください。
- 1.1.1 onnx ファイルが開かれている場合、onnx ファイルは動的または -1 として表示される必要があります。
- 1.1.2モデルに変形タイプがある場合、変形のパラメータを動的に計算する必要があります。そして、ほとんどの場合、これが問題になります。完全な畳み込みモデルでない限り、ほとんどの場合、batch_size ディメンションを動的に設定するだけでよく、動的設定を避けるようにしてください。
- 1.2.構成プロファイル:
- 1.2.1作成:
builder->createOptimizationProfile()
- 1.2.2 set:
setDimension()
setkMIN
、kOPT
、kMAX
一連の入力サイズ範囲- 1.2.3 add:
config->addOptimizationProfile(profile);
ネットワーク構成にプロファイルを追加します。2.推論段階では:
- 2.1.プロファイルインデックスについて
- 2.2実行時にエンジンからバインドされたディメンションをリクエストすると、ネットワークの構築に使用されたのと同じディメンションが返されます。これは、結果のディメンションが依然として動的であることを意味します [-1, in_channel, -1, -1]:
1.multiple-optimization-profiles.jpg
- 現在の実際のディメンションを取得するには、クエリ実行コンテキストが必要です。
1.multiple-optimization-profiles.jpg
3.正確性をチェックする
- 通常、エラーが発生したかどうかを確認するには pytorch を使用します。
2. 補足知識
ほとんどの場合、バッチ ディメンションのダイナミクスのみを考慮し、幅と高さのダイナミクスにはあまり注意を払いません。静的バッチと動的バッチについては、次の説明があります。
静的バッチ
- エクスポートされた onnx は、すべての次元が明示的な数値であり、静的な形状モデルであることを指定します。
- 推論する場合、常に同じバッチ推論になります。現在グラフ推論が 1 つしかない場合でも、n 個のバッチ推論が必要であり、バッチ時間がかかります。
- ほとんどのシナリオに適用でき、コード全体のロジックは非常にシンプルです
動的バッチ
- エクスポート時に、特定のディメンションを動的、つまり不確実な状態として指定します。
- 推論に必要なバッチ サイズはモデル推論中にのみ決定されるため、時間がかかり最適ですが、onnx の複雑さが増加します。
- 偏ったリクエストが多いサーバーなどのシナリオに適用可能
詳細については、https://www.bilibili.com/video/BV15Y41167B5/をご確認ください。
要約する
このコースでは、動的形状に関する関連知識と TRT の実装の要点を学びました。コードでは、主に構成ファイル OptimizationProfile を最適化することで動的形状を指定します。ほとんどの場合、バッチ ディメンションのダイナミクスのみを考慮することに注意してください。静的バッチ推論が常に同じバッチ推論である場合、バッチ時間が必要で、ほとんどのシナリオに適しています。一方、動的な形状はモデルでのみ使用できます。推論に必要なバッチ サイズは推論中にのみ決定されます。これは時間がかかりますが最適であり、サーバーに多数の不均一なリクエストがあるシナリオに適しています。