Applications of fractional calculus in computer vision: A survey

Abstract

分数阶微积分是一种抽象的概念,探索了具有非整数阶微分的解释。很长一段时间以来,它被认为是一个纯理论问题。然而,引入了几个有用的分数阶导数定义,扩展了其应用范围。在计算能力和算法表示的支持下,分数阶微积分已经成为一个多方面的领域。研究发现,分数阶导数能够将记忆纳入系统中,因此适用于改进像图像处理和计算机视觉等局部感知任务的性能。本文对在计算机视觉中使用基于分数阶导数的技术进行了广泛调查。它简要介绍了基础知识,并介绍了分数阶微积分在六个不同领域中的应用,即边缘检测、光流、图像分割、图像去噪、图像识别和目标检测。分数阶导数确保了噪声的弹性,并且可以保留图像的高频和低频成分。图像中邻近像素的相对相似度可能会受到错误、噪声或非均匀照明的影响。在这种情况下,分数阶微分可以模拟特殊的相似性,并帮助适当地补偿问题。分数阶导数可以对不连续函数进行评估,这有助于估计不连续的光流。微分的阶数还为优化过程提供了额外的自由度。本研究展示了分数阶微积分在计算机视觉中的成功实现,并有助于提出挑战和未来的发展方向。

1.Introduction

分数阶微积分的概念是基本的,指的是在阶数不是严格整数的情况下获得函数导数和积分。很长一段时间以来,对这些数学表示的经验解释一直是一个难题。一些早期的工作表明,这种概念包含了局部性的意义,并因此包含了历史。这个看似奇怪的概念可以与常见的时空应用,例如语音、声音和图像相关联。例如,图像中的一个像素与它的邻域相关联,不能与周围的像素任意不同。我们将看到如何使用分数阶微积分天然地模拟这些关系,并在各种计算机视觉应用中变得有用,如边缘检测、光流、图像分割、图像去噪、图像识别和目标检测。

过去20年来,人们已经看到,基于分数阶的系统在各种需要考虑非局部性或历史的科学和工程应用中表现更好[1-6]。计算机视觉中使用基于整数阶微分的各种方法。其中一些微分模型已经从整数阶推广到分数阶。1991年,Oustaloup等人为分数阶微积分在计算机视觉中的应用奠定了基础。他们使用分数阶导数进行边缘检测[7,8],自那时以来,分数阶微积分已被应用于计算机视觉的各个领域。分数阶微积分在计算机视觉中用于增强、更好的检测选择性、开发强大的去噪模型以及处理不连续性。与整数阶导数不同,分数阶导数的非局部性有助于收集过去和周围的信息。在计算某点处的分数阶导数时,考虑邻近像素的值。借助邻近像素信息,分数阶导数可以区分高频噪声和实际图像特征,例如尖锐的边缘和纹理[9],这提高了特征提取、去噪和检测的准确性。此外,分数阶导数提取像素值之间的相关性,因此有助于获取嘈杂图像的缺失部分。分数阶微分的记忆性质也提高了处理大尺寸输入图像的准确性[10]。分数阶导数的阶数提供了额外的自由度,以量化梯度信息以获得更好的结果。例如,在分数奇异值分解中,图像像素值的突变权重(阶数)被缩减,从而减少了识别过程中突变的影响[11]。分数阶导数的另一个特点是,它们可以用于不连续函数的计算,从而保留了光流的不连续性。

本文旨在强调使用分数阶微积分来克服计算机视觉中的挑战所带来的优势。最常见的问题是图像质量维护,由于图像采集、传输和处理过程中引入了噪声,因此图像质量会降低。噪声、纹理和锐利边缘都是高频成分,因此很难将图像中的锐利边缘和微小变化与高频噪声区分开来。因此,去除噪声可能会导致失去图像的特征,如角点、边缘和图像纹理。从高维图像中提取特征也是图像处理中的另一个常见问题。此外,大型数据的预处理需要更多的时间,这限制了方法的效率。因此,开发用于分割和分类大型图像的强大而准确的策略具有挑战性。估计由复杂纹理和非刚性运动组成的图像序列的不连续运动和光流也不容易。或者算法不能保留流的不连续性,或者估计的流不够密集。此外,阈值分割的优化过程也容易卡在局部最优解。本文阐述了在计算机视觉中解决上述问题的分数阶微积分的应用。

本文详细评述了在计算机视觉中使用的基于分数阶导数的技术。本文重点阐述了分数阶微积分在计算机视觉算法中相比传统计算机视觉算法的优势。观察到分数阶导数的记忆性质在计算机视觉领域得到了良好的应用,该属性有助于提取图像中的邻近像素信息,提高特征提取和其他计算机视觉任务的性能。本研究展示了分数阶微积分的成功应用,并提出了挑战和未来的研究方向。本文的结构如下:下一节简要介绍计算机视觉、分数阶微积分以及重要定义,并讨论用于衡量算法性能的评估参数。第3节讨论了分数阶导数在计算机视觉中的应用,涵盖了边缘检测、光流、图像分割、图像去噪、图像识别和目标检测等六个不同领域。第4节总结了讨论的结论。最后,在第5节中讨论了未来的研究方向和挑战。

2.Background

3. Application of Fractional Calculus in Computer Vision

目前,分数阶微积分已经应用于各种计算机视觉领域[60-63],如图1所示,但仍有许多领域需要使用该技术进行改进和评估。

这项研究强调了分数阶微积分在计算机视觉的不同领域中的应用。它总结了目前使用的分数阶方法在计算机视觉和图像处理中的优点,并对未来的范围进行了讨论。

3.1. Edge Detection

边缘检测是指寻找图像中物体边缘的技术。换句话说,这些是通过数学方法找到图像亮度/强度中的突然不连续性的方法。这是计算机视觉中任何任务的最基本步骤。一阶微分方法,如Roberts算子[64]、Sobel算子[65]、Canny算子[66]和Prewitt算子[67]以及基于二阶微分的Laplacian算子[68]是一些涉及整数阶微分的标准边缘检测方法。

由于锐利的边缘和噪声都是高频分量,因此检测这些边缘变得非常困难。在大多数情况下,基于一阶导数的算子会导致细节丢失,因为它们生成的边缘较粗,而基于二阶导数的方法则保留了细节,但缺乏噪声免疫力。因此,确保边缘检测过程的准确性和噪声鲁棒性一直是这些整数阶微分算子的挑战。为了消除这些问题,引入了基于分数阶微分的方法。自由的选择适当的导数阶数以获得实际厚度的边缘。分数阶微分的非局部性促进了在平滑区域中存在的低频特征的保留,并在灰度级显著变化的区域中保持高频特征[9]。这些方法成功地同时平衡了噪声降低和边缘检测。分数阶微积分在边缘检测中的应用始于开发名为CRONE(非整数阶鲁棒控制的法语缩写)的分数阶边缘检测器[69,7,8]。当阶数在-1到1之间时,该算子对高频噪声具有鲁棒性,而当阶数在1到2之间时,它关注检测选择性。因此,可以根据数据库和所需结果选择阶数。

扫描二维码关注公众号,回复: 14672891 查看本文章

边缘检测器是由GL分数微分算子的推广发展而来的,如四元数分数微分(QFD)算子[70,71]和牛顿插值分数微分(NIFD)[73]算子。四元数是复数的扩展:q = p + qi + rj + sk. 引入 QFD 运算符,并针对彩色图像提出了基于它的边缘检测算法。

以四元数形式提出彩色图像,使用基于四元数的距离测量两个颜色像素之间的距离,这有助于区分像素。通过将分割图像与伯克利图像分割数据库(通过多个对象手动分割获得)进行比较,评估了滤波器的有效性。当应用于彩色图像的每个通道时,与 Sobel 和实分数阶微分算子 [72] 相比,QFD 获得的结果被发现更符合人类视觉感知。 QFD 滤波器在具有较少假阴性的纹理区域中给出了有希望的结果,并且在纹理部分定义的边缘处表现良好。在使用牛顿插值方程对基于全局 GL 定义的分数阶微分算子 (17) 的数值评估进行改进后,获得了 NIFD [73] 算子。如果存在函数值已知的两个点 x-h 和 x+h,则借助牛顿插值法,函数值在点 x - h + v / 2 处计算。因此,NIFD 掩码有助于获取图像的缺失部分。从 Sobel 和 Canny 获得的边缘要么不完整,要么获得的边缘图有噪声,而 NIFD 掩模显示出相对更好的边缘检测能力,边缘更锐利、更平滑,如图 3 所示。 

广义Sobel算子[74]是GL分数阶微分算子的又一个发端,已被应用于医学图像结构特征提取中。 由于图像的非局部性,它还提取了相邻像素的信息。 该算子的性能在MRI和超声图像上得到了验证。 除Canny算子外,噪声恢复能力优于其他传统边缘检测器,但特征提取和视觉效果明显良好。 

低对比度卫星图像中斑点、模糊和平滑的存在使边缘提取过程恶化。 设计了一种边缘检测算法,该算法采用基于Chebyshev多项式的分数阶算子对低对比度图像进行近似滤波,然后用Sobel算子进行边缘检测[75]。 使用高通和低通滤波器对数据进行预处理。 与传统的滤波器相比,该算法取得了较好的效果,但难以区分几何边缘和纹理边缘。

将分数阶微分和分数阶傅立叶变换(FRFT)这两个不同的概念相结合,设计了另一种边缘检测算法[76]。 该算法提供了两个自由参数,使算法更加灵活。 傅里叶变换可以被认为是将信号从时间转换为频率的变换。 FRFT是Fourier变换的扩展,它将信号的时/频域变换为时频域。 因此,Frft提供了时频分布的旋转,这使得它们能够捕获图像的非平稳特性[80]。 选择旋转角度的灵活性有助于产生大量不必要的噪声,并有助于应用滤波器来保持相关频率。 [76]中的边缘检测算法对于小掩模定义得很好,因为它允许使用分数频域而不是空域。 结果表明,分数阶微分算子在FRFT域中的性能优于传统的边缘检测算子Sobel、Roberts、Laplacian和Prewitt。 [76]结果的比较显示在图 4在文献[77]中引入掩码的基础上,将基于RL导数的算子引入图像边缘检测,并结合特征增强和对比度增强[77]。 对于任何灰度图像,该算子的性能都优于现有的边缘检测算子。 同时,增强的程度可以用分数微分阶来调节。

最近研究中的边缘检测算法[79,81]涉及使用Caputo-Fabrizio分数阶导数[82],该导数更有效地描述了记忆效应。通过Caputo-Fabrizio分数阶导数,对第一阶Sobel算子进行了另一种推广,得到了一种新的分数阶边缘检测器[79]。该算子的有效性已在医学图像、血管造影图和乳腺X线摄影图像中得到验证,并与传统方法进行了比较。如图5所示,这个强健的边缘检测器可以检测到强和弱边缘。在[81]中,Caputo-Fabrizio算子被用于Canny边缘检测算法,而不是第一阶Sobel算子。首先对大小为3x3、5x5、7x7和9x9的掩模进行了导数阶数的不同取值的分析,然后使用PSNR和MSE值分析了得到的结果,并基于此选择了导数阶数的最优值a=0.1。即使存在不同类型的噪声,建议的边缘检测器在a=0.1的情况下的性能仍优于其他竞争检测器。

最近,利用基于分数傅里叶变换的Riesz分数阶导数构建了一种边缘检测器[62]。与其他最先进的边缘检测算法相比,该边缘检测器提供了更清晰的边缘。在这个算法中,通过比较增强边缘检测图像后的结果来衡量边缘检测器的有效性。该检测器在存在JPEG压缩伪影、不同照明条件和不同噪声水平下的有效性进行了分析。该边缘检测器的局限性为:1)随着掩模大小的增加,blocking artifacts方块效应增加;2)在高斯噪声下性能下降;3)与其他方法相比计算成本更高。另一个最近的工作涉及使用基于分数导数的反锐化掩蔽技术来同时锐化图像特征和保留图像细节[63],即通过锐化边缘细节来增强图像。该工作比较了GL、RL和Riesz等基于不同性能指标(如SSIM、信息熵等)的增强方法。算法的有效性已在不同照明条件下的眼底图像中进行了分析。基于Riesz分数阶导数的图像视觉质量增强技术优于其他现有的非锐化掩蔽增强技术。本节中提到的所有工作都总结在表1中。

3.5. Object Detection

计算机视觉和图像处理中最令人兴奋的问题之一是目标检测。它是一种在图像或视频中对特定类别的多个对象进行分类和检测的技术。由于分数阶微积分具有非局部性,如前所述,基于分数阶微积分的技术已被用于目标检测算法的预处理步骤中,以进行更准确的特征提取,并获得显著的结果。

FRFT将在时/频域中定义的函数变换为频率和时间之间的域。 从而为测量时频平面上的角分布提供了一种方法。 它提供了选择任意旋转角度的额外自由度,与使用FT时相比,进一步改善了结果。 为了抑制海杂波,提高运动目标检测效果,提出了一种基于离散FRFT的自适应线增强器(ALE)。 Ozaktas等人开发的离散FRFT版本。 由于其计算效率高、精度高而被使用[189]。 然而,该算法仅适用于海杂波模型,需要探索变步长的ALE算法。 雷达高维回波数据可以在傅立叶域稀疏表示,以降低计算复杂度。 基于同样的理由,稀疏分数阶傅立叶变换(SFRFT)被提出并用于雷达图像中的运动目标检测[190,191]。 基于SFRFT的方法计算量小,杂波抑制能力强,从而得到了所需的SCR值。

视频监控中的异常检测并不是一件容易的事情。 文献[192]提出了一个三步混合模型,首先是目标识别和跟踪,然后是特征提取。 提出了分数Kohonen自组织映射(FKSOM)用于视频监控中的异常定位。 FKSOM是在SOM(Kohonen开发的一种神经网络)的权重更新过程中使用分数阶微积分来开发的。 它组织跟踪模型提取的特征来检查视频中的任何异常行为。 分数阶导数的应用提高了模式匹配和滤波的性能。 该算法的性能优于SOM和深度信念网络[193]。 获得了评价参数的期望值,MOTP、准确性、敏感性和特异性。

分数阶微积分已成功地应用于车牌识别[194]。 由于光照条件不当、天气条件、背景等多种因素,车牌质量普遍较低。 因此,为了提高检测精度,需要对车牌图像进行边缘增强。 图像增强研究像素值的突变来增强图像质量。 导数是众所周知的测量这种突变。 分数阶导数具有长记忆性质,因此有望更好地刻画此类变化。 提出了一种基于Reisz分数阶算子的文本检测数学模型。 它基于导数的实数幂和复数幂的思想,可以用来检验由多种因素引起的车牌图像的快速变化。 在基准车牌图像数据库上的实验表明,该模型优于现有的增强技术。 即使在不同的畸变下,车牌图像上的边缘也得到了增强,从而提高了车牌检测和识别性能。 ICDAR2015-SR数据集[195]经Reisz分数算子增强后的最佳字符识别率为77.38%。

分数阶导数的性质被用来改进运动目标检测和目标跟踪的结果,包括前向和后向跟踪[196]。 该方法首先将输入视频分成不同的帧,然后对每一帧进行高斯滤波去噪。 去噪后,对前向跟踪和后向跟踪进行分数阶导数估计,求出绝对差值。 前向跟踪和后向跟踪的结果汇集在一起以获得最终产品。 然后利用Otsu的阈值技术对得到的图像进行分割,并在每一帧上检测目标。 该方法的性能明显优于传统策略,如表5。

分数阶微积分也应用于视频放大。 视频放大是为了观察视频中肉眼看不见的细微变化。 在捕捉时,这些细微的变化与噪音混在一起。 传统的方法还考虑了由于摄影噪声而产生的无意义的细微变化,从而给出了误导性的结果。 同时,有意义的细微变化的时间分布被视为各向异性扩散。 根据这些观测结果,提出了一种分数各向异性滤波器,用于仅检测显著的细微变化[198],如在图 10. 该滤波器产生了显着的放大结果,比现有方法得到的结果要好得多。 但是,这个过程仍然有一些局限性。 首先,分数各向异性协方差的估计也不能幸免于离群点。 其次,它对大尺寸视频的表现较慢。 最重要的是,它假设噪声分布具有各向同性扩散,这种假设也会导致误导结果。 分数阶微积分已被应用于复制-移动伪造及其自动检测[201]。 分数四次方Zernike矩(FRQZM)的计算结果优于现有的各种算法,但在该模型中使用深度学习方法可以得到更好的结果。

用于实时目标检测的最先进的深度学习算法包括Yolor[207],其次是Yolov4[208]在MS COCO数据集上的时间估计和结果质量[209]。 同时用Beta R-CNN[210]获得了行人检测的最佳结果。 Yolo[211]、RetinaNet[212]和Fast RCNN[213]是目标检测前沿领域的一些里程碑。 上述最先进模型的体系结构可以与分数阶导数一起用于特征提取。 

3.6. Image Recognition

图像识别是模式识别的经典计算机视觉问题。 它决定特定的对象、活动或特征是否包含在图像中。 它是一个首先检测对象或活动,然后对其进行分类的组合任务。 图像识别的方法很多。 但深度学习方法目前优于其他识别方法。 VIT-G/14[55]和FixEfficientNet-L2[56]是目前最先进的分类深度学习模型。 但是,即使是这些模型,在识别噪声图像中的目标和大图像中的小尺寸目标时,也不能很好地识别。 因此,各种综合技术被引入以提高识别能力。 一些识别方法也是基于分数阶微积分的。 

通常,提取一个特征向量用于图像识别。 目前特征提取的方法主要有信号处理和机器学习方法。 对于特征提取,降维是最流行的机器学习方法。 该图像被分解成一组基本图像的组合。 主成分分析、线性判别分析(LDA)等降维方法以及基于核的非线性特征提取器如支持向量机、核主成分分析和核判别分析等受到了广泛的关注。 这些方法可能导致在显著变化的情况下分类性能差,例如,光照、面部表情、年龄、面部毛发和姿势的变化。 图像灰度值矩阵对这种变化非常敏感。 例如,在人脸识别中,诸如遮挡、光照、表情等显著的面部变化会影响这些ML方法的性能[214,215]。 为了缓解这些问题,分数阶微积分被用于图像的降维。

例如,建立了分数阶嵌入典型相关分析(FECCA)方法,用于多视图的降维和识别[216]。 在集间和集内样本中,利用协方差矩阵进行降维,有助于识别。 但这些矩阵都受到噪声干扰。 由于训练样本的可用性较少,导致矩阵偏离真实矩阵。 在典型相关分析中,这些有偏差的估计恶化了降维的学习。 为了减小有偏估计的不利影响,采用分数阶方法对协方差矩阵的特征值和奇异值进行校正,进而重构协方差矩阵。 该方法在分类精度上优于现有的特征提取方法和联合降维技术。 此外,数字全息图将三维物体的完整信息封装成二维复杂条纹图。 在数字菲涅耳全息术的支持下,利用基于分数傅里叶变换的相关器:联合分数相关器(JFC)和非线性联合分数相关器(NJFC)[217]来识别三维物体。 在识别性能比较上,非线性分数相关器比线性分数相关器更容易识别出相似目标。

一些技术在原始灰度图像和图像识别的降维方法之间产生中间表示。 通过奇异值分解(SVD)可以将每个图像矩阵分解成一组基图像。 在此基础上,图像矩阵被看作是一组基本图像的组合。 在这些基图像中,一些前导图像对应高奇异值。 这些代表原始图像矩阵的前导图像更容易产生敏感性。 因此,很大的变化影响了特征提取的过程。 为了克服这一点,在[11]中,分数参数m被引入到SVD中,用于发展图像的中间表示。 在该参数的帮助下,缩小了前导基图像中变化的权重,降低了变化对人脸识别的影响。 根据数据库和识别方法选择了分数参数m。 分数次幂多项式Gabor滤波和分数阶傅里叶变换是一种有效的特征提取技术。 分数次幂多项式(FPP)模型和Gabor滤波器结合核判别分析和核PCA对特征进行降维[218,157]。 将分数阶傅立叶变换与降维判别分析技术相结合,提出了一种人脸识别方法[219]。 这种Gabor滤波器还可以与分数阶奇异值分解相结合,以获得图像矩阵的中间表示。

近年来,基于矩的特征提取方法引起了人们的关注。 矩是一种图像变换,它使用直角坐标或极坐标中的正交或非正交多项式将图像投影到频域。 利用非正交矩进行图像重建是一项具有挑战性的工作。 而且,这些时刻使过程变得嘈杂。 另一方面,正交矩是从一组正交多项式中得到的,这些多项式能够以最小的信息冗余量和高水平的噪声鲁棒性来表示图像。 在极坐标下定义的正交矩具有旋转不变的优点。 Zernike矩径向位移Legendre多项式和Chebyshev-Fourier矩是常见的极性形式的正交矩。 实验表明,在提取感兴趣区域的特征时,分数阶正交矩具有较高的重建精度和较强的识别能力[231]。 建立了基于分数阶Zernike矩(FZM)[229]的叶片病害分类模型。 首先利用FZM提取特征,然后利用支持向量机对疾病进行分类。 结果表明,FZM-SVM算法在30阶矩和2.5阶微分下的准确率达到了97.4%,优于其他SOA算法,如整数阶ZM、SIFT、HOG和SURF。 另一种用于图像分析的分数阶矩是切比雪夫矩[227]。 这种分数阶Chebyshev矩在图像表示和模式识别中具有很好的鲁棒性。 将来还可以导出其他分数阶矩,用于特征提取。

利用分数阶微分理论设计了PCA-SVM耦合算法。 在文献[230]中,分数阶微分掩模算子已经被开发用于高度自相似图像的边缘检测。 利用PCA进行特征提取,然后利用支持向量机算法对图像进行识别。 分数差分掩模帮助快速提取面部特征,即使在不同的光照和表情下也是如此。 分数阶PCA-SVM耦合算法显著提高了识别速度和识别精度。

猜你喜欢

转载自blog.csdn.net/like_jmo/article/details/129713534