项目地址:https://github.com/TrickyGo/Dive-into-DL-TensorFlow2.0
UC 伯克利李沐的《动手学深度学习》开源书一经推出便广受好评。很多开发者使用了书的内容,并采用各种各样的深度学习框架将其复现。
现在,《动手学深度学习》书又有了一个新的复现代码版本——TensorFlow2.0 版,短时间内成为了github上千star项目,欢迎关注。
文章目录
4.1模型构造
让我们回顾一下在 3.10节(“多层感知机的简洁实现”)一节中含单隐藏层的多层感知机的实现方法。我们首先构造Sequential
实例,然后依次添加两个全连接层。其中第一层的输出大小为256,即隐藏层单元个数是256;第二层的输出大小为10,即输出层单元个数是10。我们在上一章的其他节中也使用了Sequential
类构造模型。这里我们介绍另外一种基于tf.keras.Model
类的模型构造方法:它让模型构造更加灵活。
4.1.1 build model from block
tf.keras.Model
类是tf.keras
模块里提供的一个模型构造类,我们可以继承它来定义我们想要的模型。下面继承tf.keras.Model
类构造本节开头提到的多层感知机。这里定义的MLP
类重载了tf.keras.Model
类的__init__
函数和call
函数。它们分别用于创建模型参数和定义前向计算。前向计算也即正向传播。
import tensorflow as tf
import numpy as np
print(tf.__version__)
2.0.0
class MLP(tf.keras.Model):
def __init__(self):
super().__init__()
self.flatten = tf.keras.layers.Flatten() # Flatten层将除第一维(batch_size)以外的维度展平
self.dense1 = tf.keras.layers.Dense(units=256, activation=tf.nn.relu)
self.dense2 = tf.keras.layers.Dense(units=10)
def call(self, inputs):
x = self.flatten(inputs)
x = self.dense1(x)
output = self.dense2(x)
return output
以上的MLP
类中无须定义反向传播函数。系统将通过自动求梯度而自动生成反向传播所需的backward
函数。
我们可以实例化MLP
类得到模型变量net
。下面的代码初始化net
并传入输入数据X
做一次前向计算。其中,net(X)
将调用MLP
类定义的call
函数来完成前向计算。
X = tf.random.uniform((2,20))
net = MLP()
net(X)
<tf.Tensor: id=62, shape=(2, 10), dtype=float32, numpy=
array([[ 0.15637134, 0.14062534, -0.11187253, -0.13151687, 0.12066578,
0.15376692, 0.03429577, 0.07023033, -0.12030508, -0.38496107],
[-0.02877349, 0.1088542 , -0.20668823, 0.08241277, 0.06292161,
0.25310248, 0.04884301, 0.27015388, -0.13183925, -0.23431192]],
dtype=float32)>
4.1.2 Sequential
我们刚刚提到,tf.keras.Model
类是一个通用的部件。事实上,Sequential
类继承自tf.keras.Model
类。当模型的前向计算为简单串联各个层的计算时,可以通过更加简单的方式定义模型。这正是Sequential
类的目的:它提供add
函数来逐一添加串联的Block
子类实例,而模型的前向计算就是将这些实例按添加的顺序逐一计算。
我们用Sequential类来实现前面描述的MLP类,并使用随机初始化的模型做一次前向计算。
model = tf.keras.models.Sequential([
tf.keras.layers.Flatten(),
tf.keras.layers.Dense(256, activation=tf.nn.relu),
tf.keras.layers.Dense(10),
])
model(X)
<tf.Tensor: id=117, shape=(2, 10), dtype=float32, numpy=
array([[-0.42563885, -0.11981717, 0.0838763 , 0.04553887, 0.09710997,
0.16843301, 0.15290505, -0.00364013, -0.13743742, -0.36868355],
[-0.37125233, -0.18243487, 0.24916942, -0.04006755, 0.06090571,
0.05331742, 0.24555533, -0.03183865, -0.10122052, -0.11752242]],
dtype=float32)>
4.1.3 build complex model
虽然Sequential
类可以使模型构造更加简单,且不需要定义call
函数,但直接继承tf.keras.Model
类可以极大地拓展模型构造的灵活性。下面我们构造一个稍微复杂点的网络FancyMLP
。在这个网络中,我们通过constant
函数创建训练中不被迭代的参数,即常数参数。在前向计算中,除了使用创建的常数参数外,我们还使用tensor
的函数和Python的控制流,并多次调用相同的层。
class FancyMLP(tf.keras.Model):
def __init__(self):
super().__init__()
self.flatten = tf.keras.layers.Flatten()
self.rand_weight = tf.constant(
tf.random.uniform((20,20)))
self.dense = tf.keras.layers.Dense(units=20, activation=tf.nn.relu)
def call(self, inputs):
x = self.flatten(inputs)
x = tf.nn.relu(tf.matmul(x, self.rand_weight) + 1)
x = self.dense(x)
while tf.norm(x) > 1:
x /= 2
if tf.norm(x) < 0.8:
x *= 10
return tf.reduce_sum(x)
在这个FancyMLP
模型中,我们使用了常数权重rand_weight
(注意它不是模型参数)、做了矩阵乘法操作(tf.matmul
)并重复使用了相同的Dense
层。下面我们来测试该模型的随机初始化和前向计算。
net = FancyMLP()
net(X)
<tf.Tensor: id=220, shape=(), dtype=float32, numpy=24.381481>
因为FancyMLP
和Sequential
类都是tf.keras.Model
类的子类,所以我们可以嵌套调用它们。
class NestMLP(tf.keras.Model):
def __init__(self):
super().__init__()
self.net = tf.keras.Sequential()
self.net.add(tf.keras.layers.Flatten())
self.net.add(tf.keras.layers.Dense(64, activation=tf.nn.relu))
self.net.add(tf.keras.layers.Dense(32, activation=tf.nn.relu))
self.dense = tf.keras.layers.Dense(units=16, activation=tf.nn.relu)
def call(self, inputs):
return self.dense(self.net(inputs))
net = tf.keras.Sequential()
net.add(NestMLP())
net.add(tf.keras.layers.Dense(20))
net.add(FancyMLP())
net(X)
<tf.Tensor: id=403, shape=(), dtype=float32, numpy=3.2303767>
注:本节除了代码之外与原书基本相同,原书传送门
4.2 模型参数的访问、初始化和共享
在 3.3 节(“线性回归的简洁实现”)一节中,我们通过init
模块来初始化模型的全部参数。我们也介绍了访问模型参数的简单方法。本节将深入讲解如何访问和初始化模型参数,以及如何在多个层之间共享同一份模型参数。
我们先定义一个与上一节中相同的含单隐藏层的多层感知机。我们依然使用默认方式初始化它的参数,并做一次前向计算。
import tensorflow as tf
import numpy as np
print(tf.__version__)
2.0.0
net = tf.keras.models.Sequential()
net.add(tf.keras.layers.Flatten())
net.add(tf.keras.layers.Dense(256,activation=tf.nn.relu))
net.add(tf.keras.layers.Dense(10))
X = tf.random.uniform((2,20))
Y = net(X)
Y
<tf.Tensor: id=62, shape=(2, 10), dtype=float32, numpy=
array([[ 0.15294254, 0.0355227 , 0.05113338, 0.06625789, 0.12223213,
-0.5954561 , 0.38035268, -0.17244355, 0.6725004 , 0.00750941],
[ 0.12288147, -0.2162356 , -0.02103446, 0.14871466, 0.10256162,
-0.57710034, 0.22278625, -0.21283135, 0.52407515, -0.1426214 ]],
dtype=float32)>
4.2.1 access model parameters
对于使用Sequential
类构造的神经网络,我们可以通过weights属性来访问网络任一层的权重。回忆一下上一节中提到的Sequential
类与tf.keras.Model
类的继承关系。对于Sequential
实例中含模型参数的层,我们可以通过tf.keras.Model
类的weights
属性来访问该层包含的所有参数。下面,访问多层感知机net
中隐藏层的所有参数。索引0表示隐藏层为Sequential
实例最先添加的层。
net.weights[0], type(net.weights[0])
(<tf.Variable 'sequential/dense/kernel:0' shape=(20, 256) dtype=float32, numpy=
array([[-0.07852519, -0.03260126, 0.12601742, ..., 0.11949158,
0.10042094, -0.10598273],
[ 0.03567271, -0.11624913, 0.04699135, ..., -0.12115637,
0.07733515, 0.13183317],
[ 0.03837337, -0.11566538, -0.03314627, ..., -0.10877015,
0.09273799, -0.07031895],
...,
[-0.03430544, -0.00946991, -0.02949082, ..., -0.0956497 ,
-0.13907745, 0.10703176],
[ 0.00447187, -0.07251608, 0.08081181, ..., 0.02697623,
0.05394638, -0.01623751],
[-0.01946831, -0.00950103, -0.14190955, ..., -0.09374787,
0.08714674, 0.12475103]], dtype=float32)>,
tensorflow.python.ops.resource_variable_ops.ResourceVariable)
4.2.2 initialize params
我们在[“数值稳定性和模型初始化”]一节中描述了模型的默认初始化方法:权重参数元素为[-0.07, 0.07]之间均匀分布的随机数,偏差参数则全为0。但我们经常需要使用其他方法来初始化权重。在下面的例子中,我们将权重参数初始化成均值为0、标准差为0.01的正态分布随机数,并依然将偏差参数清零。
class Linear(tf.keras.Model):
def __init__(self):
super().__init__()
self.d1 = tf.keras.layers.Dense(
units=10,
activation=None,
kernel_initializer=tf.zeros_initializer(),
bias_initializer=tf.zeros_initializer()
)
self.d2 = tf.keras.layers.Dense(
units=1,
activation=None,
kernel_initializer=tf.ones_initializer(),
bias_initializer=tf.ones_initializer()
)
def call(self, input):
output = self.d1(input)
output = self.d2(output)
return output
net = Linear()
net(X)
net.get_weights()
[array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]], dtype=float32),
array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], dtype=float32),
array([[1.],
[1.],
[1.],
[1.],
[1.],
[1.],
[1.],
[1.],
[1.],
[1.]], dtype=float32),
array([1.], dtype=float32)]
4.2.3 define initializer
可以使用tf.keras.initializers
类中的方法实现自定义初始化。
def my_init():
return tf.keras.initializers.Ones()
model = tf.keras.models.Sequential()
model.add(tf.keras.layers.Dense(64, kernel_initializer=my_init()))
Y = model(X)
model.weights[0]
<tf.Variable 'sequential_1/dense_4/kernel:0' shape=(20, 64) dtype=float32, numpy=
array([[1., 1., 1., ..., 1., 1., 1.],
[1., 1., 1., ..., 1., 1., 1.],
[1., 1., 1., ..., 1., 1., 1.],
...,
[1., 1., 1., ..., 1., 1., 1.],
[1., 1., 1., ..., 1., 1., 1.],
[1., 1., 1., ..., 1., 1., 1.]], dtype=float32)>
注:本节除了代码之外与原书基本相同,原书传送门