NN accélération série de trois | TensorRT- modèle d'évaluation du réseau trtexec

brève introduction

trtexec.readme
fonction complexe

  • Il est utile pour les réseaux sur l'analyse comparative des données aléatoires. Modèle Inference pour tester les performances du réseau.
  • Il est utile pour générer des moteurs sérialisé à partir de modèles. Moteur de sérialisation pour produire un modèle de réseau spécifié.

Il y a trois routines

Charger le fichier de modèle et enregistrer le poids et le moteur

GoogleNet charge du moteur et enregistrer le
E: \ Speed_up \ TensorRT-5.1.5.0 \ bin \ trtexec.exe --deploy = E: \ Speed_up \ TensorRT-5.1.5.0 \ data \ googlenet \ googlenet.prototxt --model = E: \ Speed_up \ TensorRT-5.1.5.0 \ DATA \ googlenet \ googlenet.caffemodel --output = prob --batch = 16 --saveEngine = E: \ Speed_up \ \ data \ googlenet \ mnist.trt TensorRT-5.1.5.0

fenêtre Imprimer 10 fois chronophages avant que le réseau pour effectuer le raisonnement

Le moteur résultant de l'analyse comparative

E: \ Speed_up \ TensorRT-5.1.5.0 \ bin \ trtexec.exe --loadEngine = E: \ Speed_up \ TensorRT-5.1.5.0 \ DATA \ googlenet \ mnist.trt --batch = 16

fenêtre pour le réseau effectue une impression 10 fois avant de consommer le raisonnement

Utilisation FP16 / int8 Calcul

Les graphiques de performance de la machine: correspond au calcul GeForce GTX 950m: 5,0 au
cours des paramètres du moteur d'inférence , plus --fp16 int8 /
--fp16 en vertu de
[I] moyenne de plus de 10 pistes est 48.4361 ms (walltime hôte est 50.252 ms, 99% percentile le temps est 50,1577).
[I] moyenne sur 10 pistes IS 46.9483 MS (Host walltime IS 47.3756 MS, 99% percentile le temps est 47,2867).
[I] moyenne sur 10 pistes IS 46.9146 MS (Host walltime IS 47.3432 MS, 99% percentile le temps est 47,2326).
[I] moyenne sur 10 pistes IS 46.9561 MS (Host walltime IS 47.3999 MS, 99% percentile le temps est 47,2245).
[I] moyenne sur 10 pistes IS 46.9907 MS (Host walltime IS 47.4733 MS, 99% le temps est 47,0837 percentile).
[I] moyenne sur les pistes 10 47.0208 IS MS (IS 47.4603 MS hôte de wallTime, EST 47,412 fois 99% percentile).
[I] moyenne plus de 10 pistes est 47.0519 ms (walltime hôte est 47.5603 ms, 99% du temps est percentile 47,3422).
[I] moyenne plus de 10 pistes est 47.0578 ms (walltime hôte est 47.5569 ms, 99% du temps est percentile 47,3402).
[I] moyenne plus de 10 pistes est 47.0007 ms (walltime hôte est 48.5914 ms, 99% du temps est percentile 47,2236).
[I] moyenne plus de 10 pistes est 47.1327 ms (walltime hôte est 49.0836 ms, 99% du temps est percentile 47,4973).
--int8下
[I] moyenne plus de 10 pistes est 48.3438 ms (walltime hôte est 48.8078 ms, 99% du temps est percentile 50,5598).
[I] moyenne plus de 10 pistes est 46.9473 ms (walltime hôte est 47.3721 ms, 99% du temps est percentile 47,3528).
[I] moyenne plus de 10 pistes est 47.0019 ms (walltime hôte est 47.4794 ms, 99% du temps est percentile 47,0948).
[I] moyenne plus de 10 pistes est 47.0335 ms (walltime hôte est 47.4821 ms, 99% du temps est percentile 47,3957).
[I] moyenne plus de 10 pistes est 46.9847 ms (walltime hôte est 47.4697 ms, 99% du temps est percentile 47,0352).
[I] moyenne plus de 10 pistes est 47.018 ms (walltime hôte est 51.2739 ms, 99% du temps est percentile 47,2184).
[I] moyenne plus de 10 pistes est 47.0777 ms (walltime hôte est 48.3681 ms, 99% du temps est percentile 47,4442).
[I] moyenne plus de 10 pistes est 47.0309 ms (walltime hôte est 47.6396 ms, 99% du temps est percentile 47,3549).
[I] moyenne plus de 10 pistes est 47.0289 ms (walltime hôte est 47.5107 ms, 99% du temps est percentile 47,2661).
[I] moyenne plus de 10 pistes est 47.0261 ms (walltime hôte est 47.4977 ms, 99% du temps est percentile 47,2532).
L'accélération est pas très clair, il est possible parce que les séries NVIDIA GPU ne prend pas en charge le modèle FP16 ou FP16 n'a pas l'effet d'accélération.

Je suppose que tu aimes

Origine www.cnblogs.com/zy-ss-pku-cn/p/12607479.html
conseillé
Classement