概要

原文链接

Deep Residual Learning for Image Recognition
作者：Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Microsoft Research

内容概括

在这里插入图片描述

证明了模型退化问题：随着网络深度的增加，网络越来越难收敛，不是因为过拟合（56层网络训练集损失比20层的高，如图1）或梯度弥散和梯度爆炸问题（网络使用了BN），而是因为非线性激活函数的加入阻碍了线性变换的能力。

------------------------------------------------------------------------------------------------------------------- 在这里插入图片描述
2. 提出残差学习，让深度神经网络学习改变量。解释：设当前层张量为 $X$ ，理想的下一层的输出目标是 $H(x)$ ，那么原来的卷积层应该学习 $从X到H(X)$ 的变换函数，而残差卷积块学习的是 $F(X)=H(X)-X$ ,即残差。换句话说就是普通的神经网络层学习如何从当前层变换到一下层，而残差层学习该如何在当前层的基础上小修小补使其变为下一层。

------------------------------------------------------------------------------------------------------------------- 在这里插入图片描述
3. 恒等映射：假设当前层的张量为 $X$ ,经过一层神经网络，我们希望它的输出还是 $X$ ，这就称为恒等映射。设当前层对应的映射函数为 $F(X)$ ，那么对于普通层应该做到对任意 $X$ 有 $F(X)=X$ ，由于非线性激活函数的存在，这比较难做到，而对于残差层只需要 $F(X)=0$ 即可达到恒等映射，因此残差层提高了网络层的线性变换能力。图7证明了残差网络每层的激活响应标准差小于普通网络。

------------------------------------------------------------------------------------------------------------------- 在这里插入图片描述
4. 图4显示了残差连接的效果，论证了以上观点。

在这里插入图片描述
5. 对于如何残差连接，作者给出了3套方案：A. 快捷连接时直接加上输入 $X$ ，如果下一层的维度比上一层的多，那么对于多余的部分用0代替。 B. 如果上下层维度一致直接加上 $X$ ，否则加上线性变换后的 $X$ ，使得线性变换后的X的维度与下一层的一致。 C. 全部都加上线性变换后的 $X$ 。上图为实验结果，可见 C > B > A 作者认为加上在这里加上线性变换后的 $X$ 的效果比直接加上 $X$ 的仅仅有微弱的提升，这很有可能是增加的线性变换层提供了更多的可训练参数导致的，没有实际意义而且增大了单个残差块的计算量，因此直接选择B方案即可。

在这里插入图片描述
6. 作者提出了3层的残差块结构“bottleneck”，比原本俩层的更省计算资源。假设输入的张量是 $32*28*28$ 的，输出张量为 $64*28*28$ 的，那么第一种的参数量（忽略偏置项）为 $3*3*64*64+3*3*64*64=73728$ ，第二种为 $1*1*64*32+3*3*32*32+1*1*32*64=13312$ ，不仅节省了单个残差层的参数量还多引入了一次非线性变换，提升抽象能力。在这里1*1的卷积层实际上是做了降维的工作。但值得注意的是一层第一种残差块的感受野相当于两层第二种的。

生疏词汇

词都不会还想看论文？? 〒▽〒 ?

词汇	意义
substantially	adv. 实质上；大体上；充分地
explicitly	adv. 明确地；明白地
reformulate	vt. 再用形式表示
empirical	adj. 经验主义的，完全根据经验的；实证的
solely	adv. 单独地，唯一地
foundations	n. [建] 基础（foundation的复数）；房基
reveals	vt. 揭示（reveal第三人称单数）
crucial	adj. 重要的；决定性的；定局的；决断的
exploit	vt. 开发，开拓；剥削；开采
nontrivial	adj. 非平凡的
notorious	adj. 声名狼藉的，臭名昭著的
vanishing	adj. 消没的
exploding	n. 爆炸，爆发；水热炸裂
hamper	vt. 妨碍；束缚；使困累
intermediate	n. [化学] 中间物；媒介
stochastic	adj. [数] 随机的；猜测的
degradation	n. 退化；降格，降级；堕落
saturated	v. 使渗透，使饱和（saturate的过去式）
shallower	肤浅的（shallow的比较级）
counterpart	n. 副本；配对物；极相似的人或物
construction	n. 建设；建筑物；解释；造句
feasible	adj. 可行的；可能的；可实行的
underlying	adj. 潜在的；根本的；在下面的；优先的
recast	vt. 重铸；彻底改动
hypothesize	vt. 假设，假定
phenomena	n. 现象（phenomenon 的复数）
generic	adj. 类的；一般的；属的；非商标的
applicable	adj. 可适用的；可应用的；合适的
probabilistic	adj. 概率性的；或然说的，盖然论的
quantization	n. [量子] 量子化；分层；数字化
coarser	adj. 粗糙的；粗俗的；下等的 (coarse的变形)
auxiliary	adj. 辅助的；副的；附加的
concurrent	adj. adj. 并发的；一致的；同时发生的；并存的
demonstrated	演示
asymptotically	adv. 渐近地
complicated	adj. 难懂的，复杂的
counterintuitive	adj. 违反直觉的
perturbations	n. [流] 扰动；不安（perturbation的复数形式）
omitted	adj. 省略了的；省去的
comparisons	n. 比较；类似（comparison的复数形式）；处于对比状态
negligible	adj. 微不足道的，可以忽略的
economical	adj. 经济的；节约的；合算的
inspired	v. 激发（inspire的过去分词）；鼓舞
philosophy	n. 哲学；哲理；人生观
preserve	vt. 保存；保护；维持；腌；禁猎
solid	n. 固体；立方体
dotted	v. 点缀（dot的过去分词）；布满；打点于
projection	n. 投射；规划；突出；发射；推测
horizontal	adj. 水平的；地平线的；同一阶层的
flip	n. 弹；筋斗
plateaus	n. 高原；[地理] 台地；停滞时期
bold	adj. 大胆的，英勇的；黑体的；厚颜无耻的；险峻的
procedures	n. 程序；规程（procedure的复数）
throughout	adv. 自始至终，到处；全部
extent	n. 程度；范围；长度
conjecture	n. 推测；猜想
exponentially	adv. 以指数方式
impact	vt. 挤入，压紧；撞击；对…产生影响
observations	n. 观察，观察值；观察结果；（观察后发表的）言论（observation的复数形式）
feasibly	可行地
effectiveness	n. 效力
bottleneck	n. 瓶颈；障碍物
marginally	adv. 少量地；最低限度地；在栏外；在页边
witnessed	n. 证人；目击者；证据
metrics	n. 度量；作诗法；韵律学
outperforms	vt. 胜过；做得比……好
conducted	v. 管理（conduct的过去分词）；引导；指挥
intentionally	adv. 故意地，有意地
deviations	n. 差异，偏差（deviation复数）
magnitudes	n. 大小；量级；[地震] 震级；重要；光度
aggressively	adv. 侵略地；攻击地；有闯劲地
regularization	n. 规则化；调整；合法化
distracting	v. 使分心（distract的ing形式）；转移注意力
attributed	v. 归于（attribute的过去式，过去分词）；属性化
remarkably	adv. 显著地；非常地；引人注目地
solely	adv. 单独地，唯一地
analogous	adj. 类似的；[昆] 同功的；可比拟的
constant	adj. 不变的；恒定的；经常的
offsets	n. 抵消交易；船线坐标
statistics	n. 统计；统计学；[统计] 统计资料
completeness	n. 完整；完全；完成；圆满；结束
proposal	n. 提议，建议；求婚
inference	n. 推理；推论；推断
suppression	n. 抑制；镇压；[植] 压抑
subsequent	adj. 后来的，随后的
revisit	vt. 重游；再访；重临
refinement	n. 精制；文雅；[化工][油气][冶] 提纯
surpassing	v. 胜过（surpass的ing形式）
strategy	n. 战略，策略
agnostic	adj. 不可知论的
oracle	n. 神谕；预言；神谕处；圣人
warped	adj. 弯曲的；反常的

笔记

重点句子

Is learning better networks as easy as stacking more layers? An obstacle to answering this question was the notorious problem of vanishing/exploding gradients [1, 9], which hamper convergence from the beginning. This problem, however, has been largely addressed by normalized initialization [23, 9, 37, 13] and intermediate normalization layers[16], which enable networks with tens of layers to start converging for stochastic gradient descent (SGD) with backpropagation [22].
学习更好的网络就像叠加更多的层一样简单吗?回答这个问题的一个障碍是众所周知的渐变消失/爆炸问题[1,9]，它从一开始就阻碍了收敛。然而，这个问题主要通过规范化初始化[23、9、37、13]和中间规范化层[16]来解决，这使得具有数十层的网络能够开始收敛，使用反向传播[22]进行随机梯度下降(SGD)。
With the network depth increasing, accuracy gets saturated (which might be unsurprising) and then degrades rapidly. Unexpectedly, such degradation is not caused by overfitting, and adding more layers to a suitably deep model leads to higher training error.
随着网络深度的增加，准确度逐渐饱和(这可能并不令人惊讶)，然后迅速下降。出乎意料的是，这种退化并不是由过度拟合造成的，在一个合适的深度模型中添加更多的层会导致更高的训练误差。
Instead of hoping each few stacked layers directly fit a desired underlying mapping, we explicitly let these layers fit a residual mapping.
我们不希望每个堆叠的层都能直接匹配所需的底层映射，而是显式地让这些层匹配残差映射。
It would be easier to push the residual to zero than to fit an identity mapping by a stack of nonlinear layers.
将残差推到零要比通过一堆非线性层来匹配一个恒等映射容易得多。
The degradation problem suggests that the solvers might have difficulties in approximating identity mappings by multiple nonlinear layers.
退化问题表明，求解者可能难以用多个非线性层逼近身份映射。
The dimensions of x and F must be equal in Eqn.(1). If this is not the case (e.g., when changing the input/output channels), we can perform a linear projection Ws by the shortcut connections to match the dimensions:
These plain networks are trained with BN [16], which ensures forward propagated signals to have non-zero variances.
这些普通网络使用BN[16]进行训练，这确保了正向传播的信号具有非零方差。
C is marginally better than B, and we attribute this to the extra parameters introduced by many (thirteen) projection shortcuts.
C略好于B，我们将此归因于许多(十三)个投影快捷方式引入的额外参数。