【翻译】性能测量和技术提升

⚠️这个系列是自己瞎翻的,文法很丑,主要靠意会,跳着跳着捡重要的部分翻,翻错了不负责,就这样哈。

⚠️基于3.4.3,Performance Measurement and Improvement Techniques,原文

目标 

在处理图像的过程中,既然你每秒都要处理大量的数据计算,这就强制要求你的代码不仅仅要提供正确的解决逻辑,也要使用运算速度更快的方式。所以这一节,你会学到:

脱离开OpenCV,Python也提供了一个在测量执行时间时非常有用的模组 time 。另一个模组 profile 帮忙拿到代码的详细报告,比如代码中每个方法要花掉多少时间,一个方法被调用了多少次等等。但是如果你使用IPython,所有的这些特性都被整合成了一种对用户非常友好的方式。我们会遇到一些重要的特性,想要知道更多,查看  额外资源 这个部分里的链接。

用OpenCV来测量性能 

cv.getTickCount 方法返回一个特定的事件(比如开机的时刻)之后到你调用此方法的时刻之间的时间周期数。因此你在(自己的业务)方法执行前和(自己的业务)方法执行后调用这个方法,你就能得到之前执行(自己的业务)方法所花费的时间周期数。

cv.getTickFrequency 方法返回时间周期的频率,或者叫做每秒时间周期的数量。所以要得到每秒执行的次数,你可以像下面这样做。

e1 = cv.getTickCount()

# your code execution

e2 = cv.getTickCount()

time = (e2 - e1)/ cv.getTickFrequency()

我们将会用以下例子来论证,下面的示例用一个从5到49,奇数距离修正的种子,来做中值滤波。(不用管这个结果是啥样的,那不是我们的目标):

img1 = cv.imread('messi5.jpg')
e1 = cv.getTickCount()
for i in xrange(5,49,2):
    img1 = cv.medianBlur(img1,i)
e2 = cv.getTickCount()
t = (e2 - e1)/cv.getTickFrequency()
print( t )
# Result I got is 0.521107655 seconds

提示

你可以用 time 模组来做同样的事,用 time.time() 方法代替 cv.getTickCount ,然后拿到两个时间的差值。

OpenCV里的默认优化 

许多 OpenCV 方法用 SSE2, AVX 等等优化过。但OpenCV也包含了未优化的代码(译者注:这对使用者是无感的,调用的方法相同,根据硬件和设置效率不同。)。所以如果你的系统支持这些特性我们就应该利用这些特性(几乎所有的现代处理器都支持他们)。当编译时它默认就开启了,因此如果它被开启了的话,OpenCV会运行优化过的代码,否则运行未优化过的。你可以使用 cv.useOptimized() 方法来检查它是开启了还是被关闭了,用 cv.setUseOptimized() 方法来开启或者关闭它,让我们看一个简单示例。

# check if optimization is enabled
In [5]: cv.useOptimized()
Out[5]: True
In [6]: %timeit res = cv.medianBlur(img,49)
10 loops, best of 3: 34.9 ms per loop
# Disable it
In [7]: cv.setUseOptimized(False)
In [8]: cv.useOptimized()
Out[8]: False
In [9]: %timeit res = cv.medianBlur(img,49)
10 loops, best of 3: 64.1 ms per loop

看,优化过的中值滤波比未优化过的版本快两倍。 如果你查看它的源码,你可以发现这个中值滤波的计算是用单指令多数据流(译者注:SIMD简介)优化过的。所有你可以在你代码的最顶端用这个方式来开启优化(记住它默认是开启的)。

用IPython来测量性能 

有时候你可能需要比较两个相似的方法的性能。IPython 给了你一个神奇的命令 timeit 来执行此操作。它运行代码几次以获得更准确的结果。 再特别说明一次,它只适用于测量单行代码。

例如,你知道以下哪个加法操作更好吗,x = 5; y = x**2, x = 5; y = x*x, x = np.uint8([5]); y = x*x 还是 y = np.square(x) ?我们将用timeit在IPython 的脚本中找到答案。

In [10]: x = 5
In [11]: %timeit y=x**2
10000000 loops, best of 3: 73 ns per loop
In [12]: %timeit y=x*x
10000000 loops, best of 3: 58.3 ns per loop
In [15]: z = np.uint8([5])
In [17]: %timeit y=z*z
1000000 loops, best of 3: 1.25 us per loop
In [19]: %timeit y=np.square(z)
1000000 loops, best of 3: 1.16 us per loop

你可以看到,x = 5 ; y = x*x 是最快的,并且比Numpy方法快了20倍左右(译者注:结果中的单位-> ns-纳秒10的-9次方秒,us-微秒10的-6次方秒)。如果你还考虑到数组的创建,它可能要快到(Numpy的)接近100倍。很酷,对吧?*(Numpy 的开发团队已经在着手解决这个小问题了)*

提示

Python标量操作比Numpy标量操作更快。 因此对于包含一个或两个元素的操作,Python标量优于Numpy数组。 当阵列的大小稍大时,Numpy会占据优势。

我们将再尝试一个例子。 这次,我们将针对同一图像比较 cv.countNonZero() 和 np.count_nonzero() 的性能。

In [35]: %timeit z = cv.countNonZero(img)
100000 loops, best of 3: 15.8 us per loop
In [36]: %timeit z = np.count_nonzero(img)
1000 loops, best of 3: 370 us per loop

看,OpenCV方法比Numpy方法快了接近25倍。

提示

通常,OpenCV函数比Numpy函数更快。 因此,对于相同的操作,OpenCV方法是首选。 但是,可能有例外,尤其是当Numpy使用视图而不是副本时。

IPython更多的神奇命令 

还有其他一些神奇的命令来衡量性能,分析,线性分析,内存测量等等。它们都有很好的文档记录。因此,此处仅提供指向这些文档的链接。 建议有兴趣的读者试一试。(译者注:在本节末尾的连接中)

性能优化技巧 

有几种技术和编码方法可以利用Python和Numpy最大化的性能。 此处仅注明相关的内容,并提供重要资源的链接。 这里主要应该注意的是,首先尝试以简单的方式实现算法。 一旦代码有效工作,分析它,找到瓶颈并进行优化它。

  1. 尽一切可能,避免在Python中使用循环,特别是双/三循环。因为循环本身就很慢。
  2. 尽可能把算法/代码向量化,因为Numpy和OpenCV都为向量操作做过优化。
  3. 利用缓存的相关性。
  4. 除非必须,否则绝不拷贝数组。尝试用视图代替,拷贝数组是个消耗极大的操作。

即使照所有这些技巧做了之后,你的代码仍然很慢,或者使用大型循环是不可避免的,请使用其他库比如 Cython 来加快速度。

额外资源 

Exercises


上篇:【翻译】针对图像的算法操作

下篇:【翻译】改变色彩空间

猜你喜欢

转载自blog.csdn.net/ssybc/article/details/84104034