GPU编程 Profiler的使用

在安装完成了CUDA库后，除了包含的Nsight还有一系列英伟达提供的工具，比如说Profiler。

“Visual Profiler是一个图形化的剖析工具，可以显示你的应用程序中CPU和GPU的活动情况，利用分析引擎帮助你寻找优化的机会。”

其实除了可视化的界面，NVIDIA提供了命令行方式的剖析命令：nvprof。对于初学者，使用图形化的方式比较容易上手。

使用命令的方式如下：
在这里插入图片描述

但是还是想搞一下图形化界面。

如果直接进入Profiler会弹出以下界面：
在这里插入图片描述

所以使用Profiler前需要注意：
在这里插入图片描述

比较坑的一点就是官方说明需要自己手动安装JRE 1.8 u151（新于这个版本的JRE都是不可用的！）才能用Profiler。

Oracle官网上不太好找旧版本的资源，在这里附一下百度云链接：
链接: https://pan.baidu.com/s/1b9OcRm8rJ92wn-Giv_sZBg 提取码: fqrh

安装完成后就可以成功进入Profiler的界面了！！

注意：使用前一定要确认自己已经将相关的CUDA环境变量配置成功，不然仍然无法使用。
在这里插入图片描述

点击File->New Session，弹出新建会话对话框，如下图所示：
在这里插入图片描述
选择自己编译生成的.exe文件就可以对程序进行分析了。

界面功能如下：
在这里插入图片描述
上图中，CPU和GPU部分显示了硬件和执行内容信息，点某一项则将时间条对应的部分高亮，便于观察，同时右边详细信息会显示运行时间信息。从时间条上看出，cudaMalloc占用了很大一部分时间。下面分析器给出了一些性能提升的关键点，包括：低计算利用率（计算时间只占总时间的1.8%，也难怪，加法计算复杂度本来就很低呀！）；低内存拷贝/计算交叠率（一点都没有交叠，完全是拷贝——计算——拷贝）；低存储拷贝尺寸（输入数据量太小了，相当于你淘宝买了个日记本，运费比实物价格还高！）；低存储拷贝吞吐率（只有1.55GB/s）。这些对我们进一步优化程序是非常有帮助的。

在这里插入图片描述

通过这个窗口可以看到每个核函数执行时间，以及线程格、线程块尺寸，占用寄存器个数，静态共享内存、动态共享内存大小等参数，以及内存拷贝函数的执行情况。这个提供了比前面cudaEvent函数测时间更精确的方式，直接看到每一步的执行时间，精确到ns。

GPU编程 Profiler的使用

猜你喜欢