[FoveaNet]FoveaNet: Perspective-aware Urban Scene Parsing

版权声明:新建了专注于语义分割的QQ群704803384,欢迎交流!!! https://blog.csdn.net/u014451076/article/details/79570177

Abstract

清华大学和一些企业合作的文章,发表于ICCV 2017.文章主要

目前,大多数的图片解析模型都将所有尺寸和位置的信息同等对待,而没有考虑汽车捕获的城市场景图片的几何属性. 因此,由于摄像头的透视投影,会导致存在不同的物体尺寸,并且不可避免地造成场景解析和识别错误.

本方法在Cityscapes和Camvid上达到了SOTA.

本文的主要贡献:(1)提出透视评估网络来学习城市街景图片中的全局透视几何信息(2)提出考虑透视的解析网络进行城市街景中差异化尺寸问题的解决方法(3)提出考虑透视的CRFs模型来减少大尺寸物体存在的“分解”问题.

Movitation

1
在摄像头下近的物体拍出来比较大,远的物体拍出来比较小,然而在现实中可能是同样大小的物体.通常的分割方法,由于忽略了这种信息,常常导致将一个大的物体分解,同时小的物体边界也容易产生错误. 因此考虑提出FoveaNet结合这种信息.

Frame

2
主要想法是预测一张图片中的透视几何,然后对不同尺寸的信息进行不同的解析,而不是统一解析.

  1. 考虑透视的评估网络
    主要是更好的解析消失点附近的小尺寸物体聚集区域.这里提出Perspective Estimation Network(PEN)如下:
    3
    使用Deeplabv2-ResNet101的基本架构,然后res5不进行downsampling,最终得出的结果是原图的1/16.
    这里图片的ground truth如下:
    4
    其中n表示第n张图,m是图中的实例,表示像素,l(m)表示实例m的类别,AveSize(l(m)),表示实例m在类别等级的平均大小.
    最终形成的heatmap图如下:
    5

  2. 考虑透视的CRF
    主要是解决大尺寸物体的“分解”问题.
    CRF这一部分有空进行一下总结.

Result

在Cityscapes的图片训练中,将图片randomly crop为896x896.

1

2
在两个数据集上的性能并不是特别高,并没有PSPNet, Tusimple等高.

Code

None

猜你喜欢

转载自blog.csdn.net/u014451076/article/details/79570177