Opencv图像识别从零到精通----DFT离散傅里叶变换

       这篇就是图像的时域到频域的开始,也是信号处理中比较常见的傅立叶变换。

一、傅立叶图像

  对一张图像使用傅立叶变换就是将它分解成正弦和余弦两部分。也就是将图像从空间域(spatial domain)转换到频域(frequency domain)。 这一转换的理论基础来自于以下事实:任一函数都可以表示成无数个正弦和余弦函数的和的形式。傅立叶变换就是一个用来将函数分解的工具。 2维图像的傅立叶变换可以用以下数学公式表达:

F(k,l) = \displaystyle\sum\limits_{i=0}^{N-1}\sum\limits_{j=0}^{N-1} f(i,j)e^{-i2\pi(\frac{ki}{N}+\frac{lj}{N})}e^{ix} = \cos{x} + i\sin {x}

式中 f 是空间域(spatial domain)值, F 则是频域(frequency domain)值。 转换之后的频域值是复数, 因此,显示傅立叶变换之后的结果需要使用实数图像(real image) 加虚数图像(complex image), 或者幅度图像(magitude image)加相位图像(phase image)。 在实际的图像处理过程中,仅仅使用了幅度图像,因为幅度图像包含了原图像的几乎所有我们需要的几何信息。 然而,如果你想通过修改幅度图像或者相位图像的方法来间接修改原空间图像,你需要使用逆傅立叶变换得到修改后的空间图像,这样你就必须同时保留幅度图像和相位图像了。

在此示例中,我将展示如何计算以及显示傅立叶变换后的幅度图像。由于数字图像的离散性,像素值的取值范围也是有限的。比如在一张灰度图像中,像素灰度值一般在0到255之间。 因此,我们这里讨论的也仅仅是离散傅立叶变换(DFT)。 如果你需要得到图像中的几何结构信息,那你就要用到它了。请参考以下步骤(假设输入图像为单通道的灰度图像 I)


二、函数

int getOptimalDFTSize(int vecsize)

该函数是为了获得进行DFT计算的最佳尺寸。因为在进行DFT时,如果需要被计算的数字序列长度vecsize2n次幂的话,那么其运行速度是非常快的。如果不是2n次幂,但能够分解成2,3,5的乘积,则运算速度也非常快。这里的getOptimalDFTSize()函数就是为了获得满足分解成2,3,5的最小整数尺寸。很显然,如果是多维矩阵需要进行DFT,则每一维单独用这个函数获得最佳DFT尺寸。

  • void copyMakeBorder(InuptArray src, OutputArray dst, int top , int bottom, int left, int right, int borderType, const Scalar& value=Scalar())

    该函数是用来扩展一个图像的边界的,第36个参数分别为原始图像的上下左右各扩展的像素点的个数,第7个参数表示边界的类型,如果其为BORDER_CONSTANT,则扩充的边界像素值则用第8个参数来初始化。将src图像扩充边界后的结果保存在dst图像中。

  • merge()函数是把多个但通道数组连接成1个多通道数组,而split()函数则相反,把1个多通道函数分解成多个但通道函数。

  • Void magnitude(InputArray x, InputArray y, OutPutArray magnitude)

    该函数是计算输入矩阵xy对应该的每个像素平方求和后开根号保存在输出矩阵magnitude中。

  • 函数log(InputArray src, OutputArray dst)是对输入矩阵src中每个像素点求log,保存在输出矩阵dst的相对应的位置上。

  • 三、过程描述

    将图像延扩到最佳尺寸. 离散傅立叶变换的运行速度与图片的尺寸息息相关。当图像的尺寸是2, 3,5的整数倍时,计算速度最快。 因此,为了达到快速计算的目的,经常通过添凑新的边缘像素的方法获取最佳图像尺寸。函数 getOptimalDFTSize() 返回最佳尺寸,而函数copyMakeBorder() 填充边缘像素:

    Mat padded;                            //将输入图像延扩到最佳的尺寸
    int m = getOptimalDFTSize( I.rows );
    int n = getOptimalDFTSize( I.cols ); // 在边缘添加0
    copyMakeBorder(I, padded, 0, m - I.rows, 0, n - I.cols, BORDER_CONSTANT, Scalar::all(0));
    

    添加的像素初始化为0.

  • 为傅立叶变换的结果(实部和虚部)分配存储空间. 傅立叶变换的结果是复数,这就是说对于每个原图像值,结果是两个图像值。 此外,频域值范围远远超过空间值范围, 因此至少要将频域储存在 float 格式中。 结果我们将输入图像转换成浮点类型,并多加一个额外通道来储存复数部分:

    Mat planes[] = {Mat_<float>(padded), Mat::zeros(padded.size(), CV_32F)};
    Mat complexI;
    merge(planes, 2, complexI);         // 为延扩后的图像增添一个初始化为0的通道
    


  • 进行离散傅立叶变换. 支持图像原地计算 (输入输出为同一图像):

    dft(complexI, complexI);            // 变换结果很好的保存在原始矩阵中
    


  • 将复数转换为幅度.复数包含实数部分(Re)和复数部分 (imaginary - Im)。 离散傅立叶变换的结果是复数,对应的幅度可以表示为:

    M = \sqrt[2]{ {Re(DFT(I))}^2 + {Im(DFT(I))}^2}

  • 转化为OpenCV代码:

    split(complexI, planes);                   // planes[0] = Re(DFT(I), planes[1] = Im(DFT(I))
    magnitude(planes[0], planes[1], planes[0]);// planes[0] = magnitude
    Mat magI = planes[0];
    


    1. 对数尺度(logarithmic scale)缩放. 傅立叶变换的幅度值范围大到不适合在屏幕上显示。高值在屏幕上显示为白点,而低值为黑点,高低值的变化无法有效分辨。为了在屏幕上凸显出高低变化的连续性,我们可以用对数尺度来替换线性尺度:

      M_1 = \log{(1 + M)}

      转化为OpenCV代码:

      magI += Scalar::all(1);                    // 转换到对数尺度
      log(magI, magI);
      


    2. 剪切和重分布幅度图象限. 还记得我们在第一步时延扩了图像吗? 那现在是时候将新添加的像素剔除了。为了方便显示,我们也可以重新分布幅度图象限位置(注:将第五步得到的幅度图从中间划开得到四张1/4子图像,将每张子图像看成幅度图的一个象限,重新分布即将四个角点重叠到图片中心)。 这样的话原点(0,0)就位移到图像中心。

    1. int cx = magI.cols/2;
      int cy = magI.rows/2;
      
      Mat q0(magI, Rect(0, 0, cx, cy));   // Top-Left - 为每一个象限创建ROI
      Mat q1(magI, Rect(cx, 0, cx, cy));  // Top-Right
      Mat q2(magI, Rect(0, cy, cx, cy));  // Bottom-Left
      Mat q3(magI, Rect(cx, cy, cx, cy)); // Bottom-Right
      
      Mat tmp;                           // 交换象限 (Top-Left with Bottom-Right)
      q0.copyTo(tmp);
      q3.copyTo(q0);
      tmp.copyTo(q3);
      
      q1.copyTo(tmp);                    // 交换象限 (Top-Right with Bottom-Left)
      q2.copyTo(q1);
      tmp.copyTo(q2)


    2. 7.归一化. 这一步的目的仍然是为了显示。 现在我们有了重分布后的幅度图,但是幅度值仍然超过可显示范围[0,1] 。我们使用 normalize()函数将幅度归一化到可显示范围。

    normalize(magI, magI, 0, 1, CV_MINMAX); // 将float类型的矩阵转换到可显示图像范围
                                            // (float [0, 1]).



    四、整体代码

    
        
        
    1. <span style= "font-size:18px;">#include "opencv2/core/core.hpp"
    2. #include "opencv2/imgproc/imgproc.hpp"
    3. #include "opencv2/highgui/highgui.hpp"
    4. #include <iostream>
    5. using namespace cv;
    6. int main( )
    7. {
    8. Mat srcImage = imread( "lena.jpg", 0);
    9. if(!srcImage.data ) { printf( "读取图片错误,请确定目录下是否有imread函数指定图片存在~! \n"); return false; }
    10. imshow( "原始图像" , srcImage);
    11. int m = getOptimalDFTSize( srcImage.rows );
    12. int n = getOptimalDFTSize( srcImage.cols );
    13. Mat padded;
    14. copyMakeBorder(srcImage, padded, 0, m - srcImage.rows, 0, n - srcImage.cols, BORDER_CONSTANT, Scalar::all( 0));
    15. Mat planes[] = {Mat_< float>(padded), Mat::zeros(padded.size(), CV_32F)};
    16. Mat complexI;
    17. merge(planes, 2, complexI);
    18. dft(complexI, complexI);
    19. split(complexI, planes);
    20. magnitude(planes[ 0], planes[ 1], planes[ 0]);
    21. Mat magnitudeImage = planes[ 0];
    22. magnitudeImage += Scalar::all( 1);
    23. log(magnitudeImage, magnitudeImage); //求自然对数
    24. magnitudeImage = magnitudeImage(Rect( 0, 0, magnitudeImage.cols & -2, magnitudeImage.rows & -2));
    25. int cx = magnitudeImage.cols/ 2;
    26. int cy = magnitudeImage.rows/ 2;
    27. Mat q0(magnitudeImage, Rect(0, 0, cx, cy)); // ROI区域的左上
    28. Mat q1(magnitudeImage, Rect(cx, 0, cx, cy)); // ROI区域的右上
    29. Mat q2(magnitudeImage, Rect(0, cy, cx, cy)); // ROI区域的左下
    30. Mat q3(magnitudeImage, Rect(cx, cy, cx, cy)); // ROI区域的右下
    31. Mat tmp;
    32. q0.copyTo(tmp);
    33. q3.copyTo(q0);
    34. tmp.copyTo(q3);
    35. q1.copyTo(tmp);
    36. q2.copyTo(q1);
    37. tmp.copyTo(q2);
    38. normalize(magnitudeImage, magnitudeImage, 0, 1, NORM_MINMAX);
    39. imshow( "频谱幅值", magnitudeImage);
    40. waitKey();
    41. return 0;
    42. }
    43. </span>


    五、matlab


    
        
        
    1. I = rgb2gray(imread( 'd:\lena.jpg'));
    2. fcoef=fft2( double(I)); %FFT变换
    3. tmp1 = log( 1+ abs(fcoef));
    4. spectrum = fftshift(fcoef); %调整中心
    5. tmp2 = log( 1+ abs(spectrum));
    6. ifcoef = ifft2(fcoef); %逆变换
    7. figure %显示处理结果
    8. subplot( 2, 2, 1), imshow(I), title( 'source image');
    9. subplot( 2, 2, 2), imshow(tmp1,[]), title( 'FFT image');
    10. subplot( 2, 2, 3), imshow(tmp2,[]), title( 'shift FFT image');
    11. subplot( 2, 2, 4), imshow(ifcoef,[]), title( 'IFFT image');



           这篇就是图像的时域到频域的开始,也是信号处理中比较常见的傅立叶变换。

    一、傅立叶图像

      对一张图像使用傅立叶变换就是将它分解成正弦和余弦两部分。也就是将图像从空间域(spatial domain)转换到频域(frequency domain)。 这一转换的理论基础来自于以下事实:任一函数都可以表示成无数个正弦和余弦函数的和的形式。傅立叶变换就是一个用来将函数分解的工具。 2维图像的傅立叶变换可以用以下数学公式表达:

    F(k,l) = \displaystyle\sum\limits_{i=0}^{N-1}\sum\limits_{j=0}^{N-1} f(i,j)e^{-i2\pi(\frac{ki}{N}+\frac{lj}{N})}e^{ix} = \cos{x} + i\sin {x}

    式中 f 是空间域(spatial domain)值, F 则是频域(frequency domain)值。 转换之后的频域值是复数, 因此,显示傅立叶变换之后的结果需要使用实数图像(real image) 加虚数图像(complex image), 或者幅度图像(magitude image)加相位图像(phase image)。 在实际的图像处理过程中,仅仅使用了幅度图像,因为幅度图像包含了原图像的几乎所有我们需要的几何信息。 然而,如果你想通过修改幅度图像或者相位图像的方法来间接修改原空间图像,你需要使用逆傅立叶变换得到修改后的空间图像,这样你就必须同时保留幅度图像和相位图像了。

    在此示例中,我将展示如何计算以及显示傅立叶变换后的幅度图像。由于数字图像的离散性,像素值的取值范围也是有限的。比如在一张灰度图像中,像素灰度值一般在0到255之间。 因此,我们这里讨论的也仅仅是离散傅立叶变换(DFT)。 如果你需要得到图像中的几何结构信息,那你就要用到它了。请参考以下步骤(假设输入图像为单通道的灰度图像 I)


    二、函数

    int getOptimalDFTSize(int vecsize)

    该函数是为了获得进行DFT计算的最佳尺寸。因为在进行DFT时,如果需要被计算的数字序列长度vecsize2n次幂的话,那么其运行速度是非常快的。如果不是2n次幂,但能够分解成2,3,5的乘积,则运算速度也非常快。这里的getOptimalDFTSize()函数就是为了获得满足分解成2,3,5的最小整数尺寸。很显然,如果是多维矩阵需要进行DFT,则每一维单独用这个函数获得最佳DFT尺寸。

  • void copyMakeBorder(InuptArray src, OutputArray dst, int top , int bottom, int left, int right, int borderType, const Scalar& value=Scalar())

    该函数是用来扩展一个图像的边界的,第36个参数分别为原始图像的上下左右各扩展的像素点的个数,第7个参数表示边界的类型,如果其为BORDER_CONSTANT,则扩充的边界像素值则用第8个参数来初始化。将src图像扩充边界后的结果保存在dst图像中。

  • merge()函数是把多个但通道数组连接成1个多通道数组,而split()函数则相反,把1个多通道函数分解成多个但通道函数。

  • Void magnitude(InputArray x, InputArray y, OutPutArray magnitude)

    该函数是计算输入矩阵xy对应该的每个像素平方求和后开根号保存在输出矩阵magnitude中。

  • 函数log(InputArray src, OutputArray dst)是对输入矩阵src中每个像素点求log,保存在输出矩阵dst的相对应的位置上。

  • 三、过程描述

    将图像延扩到最佳尺寸. 离散傅立叶变换的运行速度与图片的尺寸息息相关。当图像的尺寸是2, 3,5的整数倍时,计算速度最快。 因此,为了达到快速计算的目的,经常通过添凑新的边缘像素的方法获取最佳图像尺寸。函数 getOptimalDFTSize() 返回最佳尺寸,而函数copyMakeBorder() 填充边缘像素:

    Mat padded;                            //将输入图像延扩到最佳的尺寸
    int m = getOptimalDFTSize( I.rows );
    int n = getOptimalDFTSize( I.cols ); // 在边缘添加0
    copyMakeBorder(I, padded, 0, m - I.rows, 0, n - I.cols, BORDER_CONSTANT, Scalar::all(0));
    

    添加的像素初始化为0.

  • 为傅立叶变换的结果(实部和虚部)分配存储空间. 傅立叶变换的结果是复数,这就是说对于每个原图像值,结果是两个图像值。 此外,频域值范围远远超过空间值范围, 因此至少要将频域储存在 float 格式中。 结果我们将输入图像转换成浮点类型,并多加一个额外通道来储存复数部分:

    Mat planes[] = {Mat_<float>(padded), Mat::zeros(padded.size(), CV_32F)};
    Mat complexI;
    merge(planes, 2, complexI);         // 为延扩后的图像增添一个初始化为0的通道
    


  • 进行离散傅立叶变换. 支持图像原地计算 (输入输出为同一图像):

    dft(complexI, complexI);            // 变换结果很好的保存在原始矩阵中
    


  • 将复数转换为幅度.复数包含实数部分(Re)和复数部分 (imaginary - Im)。 离散傅立叶变换的结果是复数,对应的幅度可以表示为:

    M = \sqrt[2]{ {Re(DFT(I))}^2 + {Im(DFT(I))}^2}

  • 转化为OpenCV代码:

    split(complexI, planes);                   // planes[0] = Re(DFT(I), planes[1] = Im(DFT(I))
    magnitude(planes[0], planes[1], planes[0]);// planes[0] = magnitude
    Mat magI = planes[0];
    


    1. 对数尺度(logarithmic scale)缩放. 傅立叶变换的幅度值范围大到不适合在屏幕上显示。高值在屏幕上显示为白点,而低值为黑点,高低值的变化无法有效分辨。为了在屏幕上凸显出高低变化的连续性,我们可以用对数尺度来替换线性尺度:

      M_1 = \log{(1 + M)}

      转化为OpenCV代码:

      magI += Scalar::all(1);                    // 转换到对数尺度
      log(magI, magI);
      


    2. 剪切和重分布幅度图象限. 还记得我们在第一步时延扩了图像吗? 那现在是时候将新添加的像素剔除了。为了方便显示,我们也可以重新分布幅度图象限位置(注:将第五步得到的幅度图从中间划开得到四张1/4子图像,将每张子图像看成幅度图的一个象限,重新分布即将四个角点重叠到图片中心)。 这样的话原点(0,0)就位移到图像中心。

    1. int cx = magI.cols/2;
      int cy = magI.rows/2;
      
      Mat q0(magI, Rect(0, 0, cx, cy));   // Top-Left - 为每一个象限创建ROI
      Mat q1(magI, Rect(cx, 0, cx, cy));  // Top-Right
      Mat q2(magI, Rect(0, cy, cx, cy));  // Bottom-Left
      Mat q3(magI, Rect(cx, cy, cx, cy)); // Bottom-Right
      
      Mat tmp;                           // 交换象限 (Top-Left with Bottom-Right)
      q0.copyTo(tmp);
      q3.copyTo(q0);
      tmp.copyTo(q3);
      
      q1.copyTo(tmp);                    // 交换象限 (Top-Right with Bottom-Left)
      q2.copyTo(q1);
      tmp.copyTo(q2)


    2. 7.归一化. 这一步的目的仍然是为了显示。 现在我们有了重分布后的幅度图,但是幅度值仍然超过可显示范围[0,1] 。我们使用 normalize()函数将幅度归一化到可显示范围。

    normalize(magI, magI, 0, 1, CV_MINMAX); // 将float类型的矩阵转换到可显示图像范围
                                            // (float [0, 1]).



    四、整体代码

    
      
      
    1. <span style= "font-size:18px;">#include "opencv2/core/core.hpp"
    2. #include "opencv2/imgproc/imgproc.hpp"
    3. #include "opencv2/highgui/highgui.hpp"
    4. #include <iostream>
    5. using namespace cv;
    6. int main( )
    7. {
    8. Mat srcImage = imread( "lena.jpg", 0);
    9. if(!srcImage.data ) { printf( "读取图片错误,请确定目录下是否有imread函数指定图片存在~! \n"); return false; }
    10. imshow( "原始图像" , srcImage);
    11. int m = getOptimalDFTSize( srcImage.rows );
    12. int n = getOptimalDFTSize( srcImage.cols );
    13. Mat padded;
    14. copyMakeBorder(srcImage, padded, 0, m - srcImage.rows, 0, n - srcImage.cols, BORDER_CONSTANT, Scalar::all( 0));
    15. Mat planes[] = {Mat_< float>(padded), Mat::zeros(padded.size(), CV_32F)};
    16. Mat complexI;
    17. merge(planes, 2, complexI);
    18. dft(complexI, complexI);
    19. split(complexI, planes);
    20. magnitude(planes[ 0], planes[ 1], planes[ 0]);
    21. Mat magnitudeImage = planes[ 0];
    22. magnitudeImage += Scalar::all( 1);
    23. log(magnitudeImage, magnitudeImage); //求自然对数
    24. magnitudeImage = magnitudeImage(Rect( 0, 0, magnitudeImage.cols & -2, magnitudeImage.rows & -2));
    25. int cx = magnitudeImage.cols/ 2;
    26. int cy = magnitudeImage.rows/ 2;
    27. Mat q0(magnitudeImage, Rect(0, 0, cx, cy)); // ROI区域的左上
    28. Mat q1(magnitudeImage, Rect(cx, 0, cx, cy)); // ROI区域的右上
    29. Mat q2(magnitudeImage, Rect(0, cy, cx, cy)); // ROI区域的左下
    30. Mat q3(magnitudeImage, Rect(cx, cy, cx, cy)); // ROI区域的右下
    31. Mat tmp;
    32. q0.copyTo(tmp);
    33. q3.copyTo(q0);
    34. tmp.copyTo(q3);
    35. q1.copyTo(tmp);
    36. q2.copyTo(q1);
    37. tmp.copyTo(q2);
    38. normalize(magnitudeImage, magnitudeImage, 0, 1, NORM_MINMAX);
    39. imshow( "频谱幅值", magnitudeImage);
    40. waitKey();
    41. return 0;
    42. }
    43. </span>


    五、matlab


    
      
      
    1. I = rgb2gray(imread( 'd:\lena.jpg'));
    2. fcoef=fft2( double(I)); %FFT变换
    3. tmp1 = log( 1+ abs(fcoef));
    4. spectrum = fftshift(fcoef); %调整中心
    5. tmp2 = log( 1+ abs(spectrum));
    6. ifcoef = ifft2(fcoef); %逆变换
    7. figure %显示处理结果
    8. subplot( 2, 2, 1), imshow(I), title( 'source image');
    9. subplot( 2, 2, 2), imshow(tmp1,[]), title( 'FFT image');
    10. subplot( 2, 2, 3), imshow(tmp2,[]), title( 'shift FFT image');
    11. subplot( 2, 2, 4), imshow(ifcoef,[]), title( 'IFFT image');



    猜你喜欢

    转载自blog.csdn.net/zhangxz259/article/details/81670452