Zifeng Wu的38层网络：Wider or Deeper: Revisiting the ResNet Model for Visual Recognition

其他 2019-03-04 03:54:05 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/bea_tree/article/details/56282665

故事背景

文章：Wider or Deeper: Revisiting the ResNet Model for Visual Recognition
代码：https://github.com/itijyou/ademxapp
这是adelaide沈春华老师组的一篇文章，一作是zifeng wu

在Pascal上得到了很好的结果，最终仅比商汤的低一点，之前笔者曾经涉及过此文,http://mp.weixin.qq.com/s/L_e4cUUyLQulXv9QUgjxGA
网络的加深一般来说会提高网络的表现能力，可是随着网络越来越深，每增加一层的增益也会越来越低，而且会带来显存及训练上的额外花费，本文提出了更浅也wider的网络

一句话总结

本文在保持可以end2end的深度（17 residual units）的情况下增加宽度，得到了更有表现力的模型，同时发现同一模型在分类和分割两方面表现不一定一致。

1 ResNet

首先，作者认为ResNets可以看为多个sub-networks的融合网络，而且融合的数量与sub-networks的数量呈线性关系，如下图：
这里写图片描述
原因是作者因为f2是非线性的，不可以将f1单独视为f2的一个输入。

其次，作者认为ResNet的特性决定因素之一是effective depth，超过effective depth之后，梯度就会消失，如上图中右下角的地方，当effective depth L等于1时，Delta y2通过f2之后就会消失，因此Delta w1 不会通过Me1更新，但是如果L=2那么可以看出w1的更新速度要比w2更快。

再次，作者认为，ResNet的这种形式，内在的起到了regularization的效果，可以减少wide layers的过拟合效果。

另外，作者认为，一个residual unit 需要1）好收敛 2）尽量浅所以作者选用了两个wide layers每个unit

还有，作者认为，当深度超过一定值之后，再次增加深度相当于得到了一个不完全end2end的更wide的网络，但是不确定这样的效果会不会变好，所以本文只讨论在可以end2end的前提下，增加wide。本文最好的模型有17个residual unit。

关于梯度弥散与ResNet的梯度变化：
Y. Bengio, P. Simard, and P. Frasconi. Learning long-term dependencies with gradient descent is difficult. IEEE Trans.
Neural Netw., 5(2):157–166, Mar. 1994
Residual networks behave like ensembles of relatively shallow networks arXiv:1605.06431

2 分类模型

这里写图片描述

如上图，为了不让channel数变化太突然，B6 B7依然采用bottleneck structures，所有的下采样都是pooling layers。
模型使用mxnet，4个12g卡，线性 learning rate策略。
试验结果如下：
这里写图片描述
可以发现，A模型最好，小的输入有利于提速，虽然c有更深的网络及更多的参数可是效果与d，e相似。

3 分割模型

这里采用了DeepLab v1中的方法，没有引入
multiscale structuresar ：Xiv:1603.03183，
deep supervision signals或者 global context feature： H. Zhao, J. Shi, X. Qi, X. Wang, T. Xiao, and J. Jia. Understanding scene in the wild. http://image-net.org/challenges/talks/2016/SenseCUSceneParsing.pdf, 2016。

使用pooling layer 来下采样发现对于分割无利，于是在最顶端的几个下采样中将pooling除掉，然后改变卷积的stride。然后tune了几万iterations。
另外根据不同的channel数的层使用了不同的dropout策略。
训练时随机将图片resize【0.7-1.3】倍，然后crop 500x500。

训练数据使用semantic boundaries dataset扩充

B. Hariharan, P. Arbel′aez, L. Bourdev, S. Maji, and J. Malik. Semantic contours from inverse detectors. In Proc. IEEE Int. Conf. Comp. Vis., 2011

实验结果：
这里写图片描述

其中A2是在places 365上tune的。2conv是在分类前面加了512channel的3x3卷积隐含层

可以看出b模型在分类上效果好，但是在分割上却不如ResNet101。

猜你喜欢

转载自blog.csdn.net/bea_tree/article/details/56282665

Zifeng Wu的38层网络：Wider or Deeper: Revisiting the ResNet Model for Visual Recognition

Deeper and Wider Siamese Networks for Real-Time Visual Tracking 笔记

Deeper and Wider Siamese Networks for Real-Time Visual Tracking（SiamDW）

dlib的dlib_face_recognition_resnet_model_v1.dat人脸模型原理（残差网络原理）

【Dlib】使用dlib_face_recognition_resnet_model_v1.dat无法实现微调fune-tuning

Visual Recognition and Search资源

Bottleneck Transformers for Visual Recognition

resNet_model—定义残差网络模型

[深度学习]Deep Residual Learning for Image Recognition(ResNet,残差网络)阅读笔记

【网络结构】Deep Residual Learning for Image Recognition（ResNet）论文解析

主干网络系列(1) -ResNet: Deep Residual Learning for Image Recognition

ResNet(Deep Residual Learning for Image Recognition)

ResNet: Deep Residual Learning for Image Recognition详解

Deep Residual Learning for Image Recognition（ResNet）阅读

Deep Residual Learning for Image Recognition(ResNet)

ResNet-Deep Residual Learning for Image Recognition

Deep Residual Learning for Image Recognition (ResNet)

ResNet：Deep Residual Learning for Image Recognition

ResNet —— Deep Residual Learning for Image Recognition

(ResNet)Deep Residual Learning for Image Recognition

zifeng wu instance level segmentation：Bridging Category-level and Instance-level Semantic Image

Funnel Activation for Visual Recognition(FReLU)

【从零学习PyTorch】如何残差网络resnet作为pre-model +代码讲解+残差网络resnet是个啥

recurrent model for visual attention

计算机视觉论文阅读二：弄懂残差网络ResNet Deep Residual Learning for Image Recognition

深度篇—— Deep Learning 经典网络 model 发展史(六) 细说 ResNet 结构和特点

Revisiting Self-Training for Few-Shot Learning of Language Model，EMNLP2021

resnet，Resnet，残差网络

ResNet-TensorFlow Model Zoo代码理解

ImageNet Large Scale Visual Recognition Challenge

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)