《Deep Residual Learning for Image Recognition》残差网络 -- 解析笔记

Deep Residual Learning for Image Recognition

概要

原文链接

Deep Residual Learning for Image Recognition
作者:Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Microsoft Research

内容概括

在这里插入图片描述

  1. 证明了模型退化问题:随着网络深度的增加,网络越来越难收敛,不是因为过拟合(56层网络训练集损失比20层的高,如图1)或梯度弥散和梯度爆炸问题(网络使用了BN),而是因为非线性激活函数的加入阻碍了线性变换的能力。

-------------------------------------------------------------------------------------------------------------------在这里插入图片描述
2. 提出残差学习,让深度神经网络学习改变量。解释:设当前层张量为 X X ,理想的下一层的输出目标是 H ( x ) H(x) ,那么原来的卷积层应该学习 X H ( X ) 从X到H(X) 的变换函数,而残差卷积块学习的是 F ( X ) = H ( X ) X F(X)=H(X)-X ,即残差。换句话说就是普通的神经网络层学习如何从当前层变换到一下层,而残差层学习该如何在当前层的基础上小修小补使其变为下一层。

-------------------------------------------------------------------------------------------------------------------在这里插入图片描述
3. 恒等映射:假设当前层的张量为 X X ,经过一层神经网络,我们希望它的输出还是 X X ,这就称为恒等映射。设当前层对应的映射函数为 F ( X ) F(X) ,那么对于普通层应该做到对任意 X X F ( X ) = X F(X)=X ,由于非线性激活函数的存在,这比较难做到,而对于残差层只需要 F ( X ) = 0 F(X)=0 即可达到恒等映射,因此残差层提高了网络层的线性变换能力。图7证明了残差网络每层的激活响应标准差小于普通网络。

-------------------------------------------------------------------------------------------------------------------在这里插入图片描述
4. 图4显示了残差连接的效果,论证了以上观点。


在这里插入图片描述
5. 对于如何残差连接,作者给出了3套方案:A. 快捷连接时直接加上输入 X X ,如果下一层的维度比上一层的多,那么对于多余的部分用0代替。 B. 如果上下层维度一致直接加上 X X ,否则加上线性变换后的 X X ,使得线性变换后的X的维度与下一层的一致。 C. 全部都加上线性变换后的 X X 。上图为实验结果,可见 C > B > A 作者认为加上在这里加上线性变换后的 X X 的效果比直接加上 X X 的仅仅有微弱的提升,这很有可能是增加的线性变换层提供了更多的可训练参数导致的,没有实际意义而且增大了单个残差块的计算量,因此直接选择B方案即可。


在这里插入图片描述
6. 作者提出了3层的残差块结构“bottleneck”,比原本俩层的更省计算资源。假设输入的张量是 32 28 28 32*28*28 的,输出张量为 64 28 28 64*28*28 的,那么第一种的参数量(忽略偏置项)为 3 3 64 64 + 3 3 64 64 = 73728 3*3*64*64+3*3*64*64=73728 ,第二种为 1 1 64 32 + 3 3 32 32 + 1 1 32 64 = 13312 1*1*64*32+3*3*32*32+1*1*32*64=13312 ,不仅节省了单个残差层的参数量还多引入了一次非线性变换,提升抽象能力。在这里1*1的卷积层实际上是做了降维的工作。但值得注意的是一层第一种残差块的感受野相当于两层第二种的。

生疏词汇

词都不会还想看论文?? 〒▽〒 ?

词汇 意义
substantially adv. 实质上;大体上;充分地
explicitly adv. 明确地;明白地
reformulate vt. 再用形式表示
empirical adj. 经验主义的,完全根据经验的;实证的
solely adv. 单独地,唯一地
foundations n. [建] 基础(foundation的复数);房基
reveals vt. 揭示(reveal第三人称单数)
crucial adj. 重要的;决定性的;定局的;决断的
exploit vt. 开发,开拓;剥削;开采
nontrivial adj. 非平凡的
notorious adj. 声名狼藉的,臭名昭著的
vanishing adj. 消没的
exploding n. 爆炸,爆发;水热炸裂
hamper vt. 妨碍;束缚;使困累
intermediate n. [化学] 中间物;媒介
stochastic adj. [数] 随机的;猜测的
degradation n. 退化;降格,降级;堕落
saturated v. 使渗透,使饱和(saturate的过去式)
shallower 肤浅的(shallow的比较级)
counterpart n. 副本;配对物;极相似的人或物
construction n. 建设;建筑物;解释;造句
feasible adj. 可行的;可能的;可实行的
underlying adj. 潜在的;根本的;在下面的;优先的
recast vt. 重铸;彻底改动
hypothesize vt. 假设,假定
phenomena n. 现象(phenomenon 的复数 )
generic adj. 类的;一般的;属的;非商标的
applicable adj. 可适用的;可应用的;合适的
probabilistic adj. 概率性的;或然说的,盖然论的
quantization n. [量子] 量子化;分层;数字化
coarser adj. 粗糙的;粗俗的;下等的 (coarse的变形)
auxiliary adj. 辅助的;副的;附加的
concurrent adj. adj. 并发的;一致的;同时发生的;并存的
demonstrated 演示
asymptotically adv. 渐近地
complicated adj. 难懂的,复杂的
counterintuitive adj. 违反直觉的
perturbations n. [流] 扰动;不安(perturbation的复数形式)
omitted adj. 省略了的;省去的
comparisons n. 比较;类似(comparison的复数形式);处于对比状态
negligible adj. 微不足道的,可以忽略的
economical adj. 经济的;节约的;合算的
inspired v. 激发(inspire的过去分词);鼓舞
philosophy n. 哲学;哲理;人生观
preserve vt. 保存;保护;维持;腌;禁猎
solid n. 固体;立方体
dotted v. 点缀(dot的过去分词);布满;打点于
projection n. 投射;规划;突出;发射;推测
horizontal adj. 水平的;地平线的;同一阶层的
flip n. 弹;筋斗
plateaus n. 高原;[地理] 台地;停滞时期
bold adj. 大胆的,英勇的;黑体的;厚颜无耻的;险峻的
procedures n. 程序;规程(procedure的复数)
throughout adv. 自始至终,到处;全部
extent n. 程度;范围;长度
conjecture n. 推测;猜想
exponentially adv. 以指数方式
impact vt. 挤入,压紧;撞击;对…产生影响
observations n. 观察,观察值;观察结果;(观察后发表的)言论(observation的复数形式)
feasibly 可行地
effectiveness n. 效力
bottleneck n. 瓶颈;障碍物
marginally adv. 少量地;最低限度地;在栏外;在页边
witnessed n. 证人;目击者;证据
metrics n. 度量;作诗法;韵律学
outperforms vt. 胜过;做得比……好
conducted v. 管理(conduct的过去分词);引导;指挥
intentionally adv. 故意地,有意地
deviations n. 差异,偏差(deviation复数)
magnitudes n. 大小;量级;[地震] 震级;重要;光度
aggressively adv. 侵略地;攻击地;有闯劲地
regularization n. 规则化;调整;合法化
distracting v. 使分心(distract的ing形式);转移注意力
attributed v. 归于(attribute的过去式,过去分词);属性化
remarkably adv. 显著地;非常地;引人注目地
solely adv. 单独地,唯一地
analogous adj. 类似的;[昆] 同功的;可比拟的
constant adj. 不变的;恒定的;经常的
offsets n. 抵消交易;船线坐标
statistics n. 统计;统计学;[统计] 统计资料
completeness n. 完整;完全;完成;圆满;结束
proposal n. 提议,建议;求婚
inference n. 推理;推论;推断
suppression n. 抑制;镇压;[植] 压抑
subsequent adj. 后来的,随后的
revisit vt. 重游;再访;重临
refinement n. 精制;文雅;[化工][油气][冶] 提纯
surpassing v. 胜过(surpass的ing形式)
strategy n. 战略,策略
agnostic adj. 不可知论的
oracle n. 神谕;预言;神谕处;圣人
warped adj. 弯曲的;反常的

笔记

重点句子

  • Is learning better networks as easy as stacking more layers? An obstacle to answering this question was the notorious problem of vanishing/exploding gradients [1, 9], which hamper convergence from the beginning. This problem, however, has been largely addressed by normalized initialization [23, 9, 37, 13] and intermediate normalization layers[16], which enable networks with tens of layers to start converging for stochastic gradient descent (SGD) with backpropagation [22].
    学习更好的网络就像叠加更多的层一样简单吗?回答这个问题的一个障碍是众所周知的渐变消失/爆炸问题[1,9],它从一开始就阻碍了收敛。然而,这个问题主要通过规范化初始化[23、9、37、13]和中间规范化层[16]来解决,这使得具有数十层的网络能够开始收敛,使用反向传播[22]进行随机梯度下降(SGD)。
  • With the network depth increasing, accuracy gets saturated (which might be unsurprising) and then degrades rapidly. Unexpectedly, such degradation is not caused by overfitting, and adding more layers to a suitably deep model leads to higher training error.
    随着网络深度的增加,准确度逐渐饱和(这可能并不令人惊讶),然后迅速下降。出乎意料的是,这种退化并不是由过度拟合造成的,在一个合适的深度模型中添加更多的层会导致更高的训练误差。
  • Instead of hoping each few stacked layers directly fit a desired underlying mapping, we explicitly let these layers fit a residual mapping.
    我们不希望每个堆叠的层都能直接匹配所需的底层映射,而是显式地让这些层匹配残差映射。
  • It would be easier to push the residual to zero than to fit an identity mapping by a stack of nonlinear layers.
    将残差推到零要比通过一堆非线性层来匹配一个恒等映射容易得多。
  • The degradation problem suggests that the solvers might have difficulties in approximating identity mappings by multiple nonlinear layers.
    退化问题表明,求解者可能难以用多个非线性层逼近身份映射。
  • The dimensions of x and F must be equal in Eqn.(1). If this is not the case (e.g., when changing the input/output channels), we can perform a linear projection Ws by the shortcut connections to match the dimensions: 在这里插入图片描述
    在这里插入图片描述
  • These plain networks are trained with BN [16], which ensures forward propagated signals to have non-zero variances.
    这些普通网络使用BN[16]进行训练,这确保了正向传播的信号具有非零方差。
  • C is marginally better than B, and we attribute this to the extra parameters introduced by many (thirteen) projection shortcuts.
    C略好于B,我们将此归因于许多(十三)个投影快捷方式引入的额外参数。

下载链接

点我微云下载完整版PDF ? 或者 CSDN下载

注:生疏词汇(蓝色) 重点(黄色) 次重点(绿色) 疑问(红色) 可以使用Edge浏览器打开后修改笔记

发布了16 篇原创文章 · 获赞 12 · 访问量 9709

猜你喜欢

转载自blog.csdn.net/qq_34361099/article/details/89118074