课程背景

在疫情的影响下，不少学校已经做出了延迟开学的决定，：伯禹教育、Datawhale、和鲸科技牵头与多家AI企业合作，让在家的同学也能免费学习优质的付费课程，同时为学习者创建好的学习环境，提供就业绿色通道。

主修课程

《动手学深度学习》 代码讲解Pytorch版：该书是2019年国内最受欢迎的人工智能学习教材之一，是一本面向中文读者的能运行、可讨论的深度学习教科书，书籍作者之一亚马逊首席科学家李沐，毕业于上海交大。伯禹教育携手上海交通大学团队，基于此书籍，将其中的代码框架由MXNET迁移至PyTorch，并对这些代码制作了讲解视频。帮助大家边动手写代码边巩固理论知识，从原理到实践，上手深度学习。

1 任务

【第二次打卡】内容（2月15日-17日）
1.Task03：过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶（1天）
2.Task04：机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer（1天）
3.Task05：卷积神经网络基础；leNet；卷积神经网络进阶（1天）
打卡时间：【2020-02-15 08:00 -- 2020-02-17 22:00】
打卡链接：学习开始放出

2 卷积神经网络基础

2.1 卷积层

本节介绍的是最常见的二维卷积层，常用于处理图像数据。

二维互相关（cross-correlation）运算的输入是一个二维输入数组和一个二维核（kernel）数组，输出也是一个二维数组，其中核数组通常称为卷积核或过滤器（filter）。卷积核的尺寸通常小于输入数组，卷积核在输入数组上滑动，在每个位置上，卷积核与该位置处的输入子数组按元素相乘并求和，得到输出数组中相应位置的元素。图1展示了一个互相关运算的例子，阴影部分分别是输入的第一个计算区域、核数组以及对应的输出。

下面我们用corr2d函数实现二维互相关运算，它接受输入数组X与核数组K，并输出数组Y。

import torch 
import torch.nn as nn

def corr2d(X, K):
    H, W = X.shape
    h, w = K.shape
    Y = torch.zeros(H - h + 1, W - w + 1)
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            Y[i, j] = (X[i: i + h, j: j + w] * K).sum()
    return Y

二维卷积层将输入和卷积核做互相关运算，并加上一个标量偏置来得到输出。卷积层的模型参数包括卷积核和标量偏置。

class Conv2D(nn.Module):
    def __init__(self, kernel_size):
        super(Conv2D, self).__init__()
        self.weight = nn.Parameter(torch.randn(kernel_size))
        self.bias = nn.Parameter(torch.randn(1))

    def forward(self, x):
        return corr2d(x, self.weight) + self.bias

2.2 填充和步幅

我们介绍卷积层的两个超参数，即填充和步幅，它们可以对给定形状的输入和卷积核改变输出形状。

填充（padding） 是指在输入高和宽的两侧填充元素（通常是0元素）。

步幅指在互相关运算中，卷积核在输入数组上滑动，每次滑动的行数与列数即是步幅（stride）。

2.3 多输入通道和多输出通道

之前的输入和输出都是二维数组，但真实数据的维度经常更高。例如，彩色图像在高和宽2个维度外还有RGB（红、绿、蓝）3个颜色通道。假设彩色图像的高和宽分别是 h 和 w （像素），那么它可以表示为一个 3×h×w 的多维数组，我们将大小为3的这一维称为通道（channel）维。

2.4 卷积层与全连接层的对比

二维卷积层经常用于处理图像，与此前的全连接层相比，它主要有两个优势：

一是全连接层把图像展平成一个向量，在输入图像上相邻的元素可能因为展平操作不再相邻，网络难以捕捉局部信息。而卷积层的设计，天然地具有提取局部信息的能力。

二是卷积层的参数量更少。不考虑偏置的情况下，一个形状为 (ci,co,h,w) 的卷积核的参数量是 ci×co×h×w ，与输入图像的宽高无关。假如一个卷积层的输入和输出形状分别是 (c1,h1,w1) 和 (c2,h2,w2) ，如果要用全连接层进行连接，参数数量就是 c1×c2×h1×w1×h2×w2 。使用卷积层可以以较少的参数数量来处理更大的图像。

2.5 卷积层的简洁实现

我们使用Pytorch中的nn.Conv2d类来实现二维卷积层，主要关注以下几个构造函数参数：

in_channels (python:int) – Number of channels in the input imag
out_channels (python:int) – Number of channels produced by the convolution
kernel_size (python:int or tuple) – Size of the convolving kernel
stride (python:int or tuple, optional) – Stride of the convolution. Default: 1
padding (python:int or tuple, optional) – Zero-padding added to both sides of the input. Default: 0
bias (bool, optional) – If True, adds a learnable bias to the output. Default: True
forward函数的参数为一个四维张量，形状为 (N,Cin,Hin,Win) ，返回值也是一个四维张量，形状为 (N,Cout,Hout,Wout) ，其中 N 是批量大小， C,H,W 分别表示通道数、高度、宽度。

X = torch.rand(4, 2, 3, 5)
print(X.shape)

conv2d = nn.Conv2d(in_channels=2, out_channels=3, kernel_size=(3, 5), stride=1, padding=(1, 2))
Y = conv2d(X)
print('Y.shape: ', Y.shape)
print('weight.shape: ', conv2d.weight.shape)
print('bias.shape: ', conv2d.bias.shape)

2.6 池化

池化层主要用于缓解卷积层对位置的过度敏感性。同卷积层一样，池化层每次对输入数据的一个固定形状窗口（又称池化窗口）中的元素计算输出，池化层直接计算池化窗口内元素的最大值或者平均值，该运算也分别叫做最大池化或平均池化。图6展示了池化窗口形状为 2×2 的最大池化。

SsunTtaoauto

发布了44 篇原创文章 · 获赞 42 · 访问量 8468

私信关注

《动手学深度学习》Pytorch版学习笔记（二）：Task03