[FoveaNet]FoveaNet: Perspective-aware Urban Scene Parsing

其他 2018-10-31 00:02:49 阅读次数: 0

版权声明：新建了专注于语义分割的QQ群704803384，欢迎交流!!! https://blog.csdn.net/u014451076/article/details/79570177

Abstract

清华大学和一些企业合作的文章，发表于ICCV 2017.文章主要

目前，大多数的图片解析模型都将所有尺寸和位置的信息同等对待，而没有考虑汽车捕获的城市场景图片的几何属性. 因此，由于摄像头的透视投影，会导致存在不同的物体尺寸，并且不可避免地造成场景解析和识别错误.

本方法在Cityscapes和Camvid上达到了SOTA.

本文的主要贡献:(1)提出透视评估网络来学习城市街景图片中的全局透视几何信息(2)提出考虑透视的解析网络进行城市街景中差异化尺寸问题的解决方法(3)提出考虑透视的CRFs模型来减少大尺寸物体存在的“分解”问题.

Movitation

在摄像头下近的物体拍出来比较大，远的物体拍出来比较小，然而在现实中可能是同样大小的物体.通常的分割方法，由于忽略了这种信息，常常导致将一个大的物体分解，同时小的物体边界也容易产生错误. 因此考虑提出FoveaNet结合这种信息.

Frame

主要想法是预测一张图片中的透视几何，然后对不同尺寸的信息进行不同的解析，而不是统一解析.

考虑透视的评估网络
主要是更好的解析消失点附近的小尺寸物体聚集区域.这里提出Perspective Estimation Network(PEN)如下：

使用Deeplabv2-ResNet101的基本架构，然后res5不进行downsampling，最终得出的结果是原图的1/16.
这里图片的ground truth如下:

其中n表示第n张图，m是图中的实例，表示像素，l(m)表示实例m的类别，AveSize(l(m))，表示实例m在类别等级的平均大小.
最终形成的heatmap图如下：
考虑透视的CRF
主要是解决大尺寸物体的“分解”问题.
CRF这一部分有空进行一下总结.

Result

在Cityscapes的图片训练中，将图片randomly crop为896x896.

在两个数据集上的性能并不是特别高，并没有PSPNet, Tusimple等高.

Code

None

猜你喜欢

转载自blog.csdn.net/u014451076/article/details/79570177

[FoveaNet]FoveaNet: Perspective-aware Urban Scene Parsing

Pyramid Scene Parsing Network

PSPNet: Pyramid Scene Parsing Network

PSPnet：Pyramid Scene Parsing Network

Pyramid Scene Parsing Network（PSPNet）

PSPNet——Pyramid Scene Parsing Network

18-Effective Use of Synthetic Data for Urban Scene Semantic Segmentation

[GCPNet]Scene Parsing with Global Context Embedding

【semantic segmentation】Pyramid Scene Parsing Network（转）

论文笔记：Pyramid Scene Parsing Network

论文阅读：Pyramid Scene Parsing Network

论文阅读：《Pyramid Scene Parsing Network》CVPR 2017

Neural Motifs: Scene Graph Parsing with Global Contex解读

Pyramid Scene Parsing Network(PSPNet) 论文学习

论文：PSPNet-Pyramid scene parsing Network，阅读笔记

OCNet: Object Context Network for Scene Parsing (Microsoft Research)论文解析

论文笔记-Strip Pooling: Rethinking Spatial Pooling for Scene Parsing

论文笔记-PSPNet-Semantic Segmentation--Pyramid Scene Parsing Network

Pyramid Scene Parsing Network------2017年CVPR论文翻译解读

Pyramid Scene Parsing Network–CVPR，2017论文解读及其pytorch代码

DeprecationWarning: parsing timezone aware datetimes is deprecated

CVPR2020-优于空间池化的Strip Pooling方式 | Strip Pooling: Rethinking Spatial Pooling for Scene Parsing

PSANet: 场景解析的逐点空间注意力网络_PSANet:Point-wise Spatial Attention Network for Scene Parsing

Urban Elevations UVA - 221

Urban Radiance Fields

Fangfang Wang_CVPR2018_Geometry-Aware Scene Text Detection With Instance Transformation Network

Urban Airship在iOS中的应用

Android Server Push - Urban Airship

UVA-221：Urban Elevations

Scene与Entity

今日推荐

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

“开源信徒”周鸿祎开源360智脑大模型

周排行

VS2017编译opensmile具体过程和遇到的问题

PowerEnglish——mini-story3总结

微信小程序数据库获取字符串在view中显示换行

Java静态代码块/构造代码块/构造函数/静态变量/成员变量(相关示例)

Keras使用tensorflowjs部署demo

window下用git连接Github

图象的全变分和去噪

LeetCode刷题笔记--119. Pascal's Triangle II

【Linux】进程间通信 - 管道

polyA|ribo-minus|differentiated cell|Genetic heterogeneity

每日归档

更多

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)

2024-04-12(38)

2024-04-11(14)

2024-04-10(68)

2024-04-09(5)

2024-04-08(60)