计算机视觉————目标检测,多尺度问题理解以及FCN(全卷积神经网络)存在的弊端,问题。

在阅读文献中,通常会遇到一个名词,“XX用来解决多尺度问题”。多尺度问题是什么意思?

目标检测中,我们希望对于输入图片,不管图片中某个目标或大或小,我们都需要将其识别。对于小物体,我们可以将其理解为两种方式:一种是绝对小物体,即它本身占的像素就比较小。一种是相对小物体,即相对于整个输入图片,所占比例偏小。

正如在深度学习中,我们会用卷积层,池化层等来提取特征,而这些网络层对于小尺度物体的检测是不友好。

  • 在下采样中,一般情况下下采样会达到十几倍甚至更高。假如某个小尺度物体的的像素是15*15,下采样率达到16倍,很显然,在得到的下采样最后的特征图中,这个小物体占的特征图不到一个像素点。
  • 在卷积的过程中,存在感受野这个东西,小尺度物体在特征图上的信息点本来就少,感受野的存在,会使得在这个感受野中小尺度物体无关得信息太多。

总的来说,多尺度问题就是要解决使在特征提取中,使网络对大尺度,小尺度物体都可以有很好的提取。

还有很多因素会影响小尺度物体得检测,因此会有很多种方法用来解决多尺度问题。例如降低下采样率与空洞卷积,设计更好的Anchor,多尺度的训练,特征融合,尺度归一化和三叉戟等。

FCN是语义分割的开山之作,存在着一些弊端。FCN的网络结构是从CNN转变而来,将最后的全连接层换成了1*1的卷积层,最后生成与输入特征图同样大小的目标图。

全卷积神经网络在提取特征时候,采取一系列卷积和下采样,恢复图像特征尺寸的时候,采取的是上采样。一系列的下采样,较高的采样率,这样容易导致细节丢失,分割结果比较粗糙,处理过大尺寸物体时候,容易分配错误标签,处理过小尺寸物体时候,则容易将其忽略。

最大池化可以实现在输入图像上进行小的空间位移时保持平移不变性。连续的下采样导致了在输出的特征图上,每一个像素都重叠着着大量的输入图像中的空间信息。对于图像分类任务,多层最大池化和下采样由于平移不变性可以获得较好的分类,但导致了特征图大小和空间信息的损失。图像分割任务中边界划分至关重要,而这么多有损边界细节的图像表示方法显然不利于分割。

总的来说,即分割效果不够精细,没能考虑像素与像素之间的关系。

猜你喜欢

转载自blog.csdn.net/JACKSONMHLK/article/details/106442179