百度PaddlePaddle入门-12（损失函数）

损失函数是模型优化的目标，用于衡量在无数的参数取值中，哪一个是最理想的。损失函数的计算在训练过程的代码中，每一轮的训练代码均是一致的过程：先根据输入数据正向计算预测输出，再根据预测值和真实值计算损失，最后根据损失反向传播梯度并更新参数。

在之前的方案中，我们照抄了房价预测模型的损失函数-均方误差。虽然从预测效果来看，使用均方误差使得损失不断下降，模型的预测值逐渐逼近真实值，但模型的最终效果不够理想。原因是不同的机器学习任务有各自适宜的损失函数。房价预测是回归任务，而手写数字识别属于分类任务。分类任务中使用均方误差作为损失存在逻辑和效果上的缺欠，比如房价可以是0-9之间的任何浮点数，手写数字识别的数字只可能是0-9之间的10个实数值（标签）。

在房价预测的案例中，因为房价本身是一个连续的实数值，以模型输出的数值和真实房价差距作为损失函数（loss）是符合道理的。但对于分类问题，真实结果是标签，而模型输出是实数值，导致两者相减的物理含义缺失。如果模型能输出十个标签的概率，对应真实标签的概率输出尽可能接近100%，而其他标签的概率输出尽可能接近0%，且所有输出概率之和为1。这是一种更合理的假设！与此对应，真实的标签值可以转变成一个10维度的one-hot向量，在对应数字的位置上为1，其余位置为0，比如标签“6”可以转变成[0,0,0,0,0,1,0,0,0,0]。

为了实现上述假设，需要引入Softmax函数。它可以将原始输出转变成对应标签的概率，公式如下。

softmax(x_i)=e^xi / Sigmae_j^x(j=0-N,i=0,1,...c-1)

$C是标签类别个数。从公式的形式可见，每个输出的范围均在0~1之间，且所有输出之和等于1，这是这种变换后可被解释成概率的基本前提。对应到代码上，我们需要在网络定义部分修改输出层： self.fc = FC(name_scope, size=10, act='softmax') ，即是对全连接层FC的输出加一个softmax运算。$

在该假设下，采用均方误差衡量两个概率的差别不是理论上最优的。人们习惯使用交叉熵误差作为分类问题的损失衡量，因为后者有更合理的物理解释，详见《机器学习的思考故事》。

交叉熵的公式

L=-[ Sigma t_k logy_k + (1-y_k) log(1-y_k) ]

其中，

自然对数的函数曲线可由如下代码显示。

扫描二维码关注公众号，回复： 9086199 查看本文章

 1 import matplotlib.pyplot as plt
 2 import numpy as np
 3 x = np.arange(0.01,1,0.01)
 4 y = np.log(x)
 5 plt.title("y=log(x)") 
 6 plt.xlabel("x") 
 7 plt.ylabel("y") 
 8 plt.plot(x,y)
 9 plt.show()
10 plt.figure()

如自然对数的图形所示，当x等于1时，y为0；随着x向0靠近，y逐渐变小。因此，正确解标签对应的输出越大，交叉熵的值越接近0，对应loss越小；当输出为1时，交叉熵误差为0。反之，如果正确解标签对应的输出越小，则交叉熵的值越大，对应loss越大。

在手写数字识别任务中，如果在现有代码中将模型的损失函数替换成交叉熵（cross_entropy），仅改动三行代码即可：在读取数据部分，将标签的类型设置成int，体现它是一个标签而不是实数值（飞桨框架默认将标签处理成int64）；在网络定义部分，将输出层改成“输出十个标签的概率”的模式；以及在训练过程部分，将损失函数从均方误差换成交叉熵。

数据处理部分：label = np.reshape(labels[i], [1]).astype('int64')
网络定义部分：self.fc = FC(name_scope, size=10, act='softmax')
训练过程部分：loss = fluid.layers.cross_entropy(predict, label)

如下是在数据处理部分，修改标签变量Label的格式。

从：label = np.reshape(labels[i], [1]).astype('float32')
到：label = np.reshape(labels[i], [1]).astype('int64')

 1 #修改标签数据的格式，从float32到int64
 2 import os
 3 import random
 4 import paddle
 5 import paddle.fluid as fluid
 6 from paddle.fluid.dygraph.nn import Conv2D, Pool2D, FC
 7 import numpy as np
 8 from PIL import Image
 9 
10 import gzip
11 import json
12 
13 # 定义数据集读取器
14 def load_data(mode='train'):
15 
16     # 数据文件
17     datafile = './work/mnist.json.gz'
18     print('loading mnist dataset from {} ......'.format(datafile))
19     data = json.load(gzip.open(datafile))
20     train_set, val_set, eval_set = data
21 
22     # 数据集相关参数，图片高度IMG_ROWS, 图片宽度IMG_COLS
23     IMG_ROWS = 28
24     IMG_COLS = 28
25 
26     if mode == 'train':
27         imgs = train_set[0]
28         labels = train_set[1]
29     elif mode == 'valid':
30         imgs = val_set[0]
31         labels = val_set[1]
32     elif mode == 'eval':
33         imgs = eval_set[0]
34         labels = eval_set[1]
35 
36     imgs_length = len(imgs)
37 
38     assert len(imgs) == len(labels), \
39           "length of train_imgs({}) should be the same as train_labels({})".format(
40                   len(imgs), len(labels))
41 
42     index_list = list(range(imgs_length))
43 
44     # 读入数据时用到的batchsize
45     BATCHSIZE = 100
46 
47     # 定义数据生成器
48     def data_generator():
49         if mode == 'train':
50             random.shuffle(index_list)
51         imgs_list = []
52         labels_list = []
53         for i in index_list:
54             img = np.reshape(imgs[i], [1, IMG_ROWS, IMG_COLS]).astype('float32')
55             label = np.reshape(labels[i], [1]).astype('int64')
56             imgs_list.append(img) 
57             labels_list.append(label)
58             if len(imgs_list) == BATCHSIZE:
59                 yield np.array(imgs_list), np.array(labels_list)
60                 imgs_list = []
61                 labels_list = []
62 
63         # 如果剩余数据的数目小于BATCHSIZE，
64         # 则剩余数据一起构成一个大小为len(imgs_list)的mini-batch
65         if len(imgs_list) > 0:
66             yield np.array(imgs_list), np.array(labels_list)
67 
68     return data_generator

如下是在网络定义部分，修改输出层结构。

从：self.fc = FC(name_scope, size=1, act=None)
到：self.fc = FC(name_scope, size=10, act='softmax')

 1 # 定义模型结构
 2 class MNIST(fluid.dygraph.Layer):
 3      def __init__(self, name_scope):
 4          super(MNIST, self).__init__(name_scope)
 5          name_scope = self.full_name()
 6          # 定义一个卷积层，使用relu激活函数
 7          self.conv1 = Conv2D(name_scope, num_filters=20, filter_size=5, stride=1, padding=2, act='relu')
 8          # 定义一个池化层，池化核为2，步长为2，使用最大池化方式
 9          self.pool1 = Pool2D(name_scope, pool_size=2, pool_stride=2, pool_type='max')
10          # 定义一个卷积层，使用relu激活函数
11          self.conv2 = Conv2D(name_scope, num_filters=20, filter_size=5, stride=1, padding=2, act='relu')
12          # 定义一个池化层，池化核为2，步长为2，使用最大池化方式
13          self.pool2 = Pool2D(name_scope, pool_size=2, pool_stride=2, pool_type='max')
14          # 定义一个全连接层，输出节点数为10 
15          self.fc = FC(name_scope, size=10, act='softmax')
16     # 定义网络的前向计算过程
17      def forward(self, inputs):
18          x = self.conv1(inputs)
19          x = self.pool1(x)
20          x = self.conv2(x)
21          x = self.pool2(x)
22          x = self.fc(x)
23          return x

如下代码仅修改计算损失的函数，从均方误差（常用于回归问题）到交叉熵误差（常用于分类问题）。

从：loss = fluid.layers.square_error_cost(predict, label)
到：loss = fluid.layers.cross_entropy(predict, label)

 1 #仅修改计算损失的函数，从均方误差（常用于回归问题）到交叉熵误差（常用于分类问题）
 2 with fluid.dygraph.guard():
 3     model = MNIST("mnist")
 4     model.train()
 5     #调用加载数据的函数
 6     train_loader = load_data('train')
 7     optimizer = fluid.optimizer.SGDOptimizer(learning_rate=0.01)
 8     EPOCH_NUM = 5
 9     for epoch_id in range(EPOCH_NUM):
10         for batch_id, data in enumerate(train_loader()):
11             #准备数据，变得更加简洁
12             image_data, label_data = data
13             image = fluid.dygraph.to_variable(image_data)
14             label = fluid.dygraph.to_variable(label_data)
15             
16             #前向计算的过程
17             predict = model(image)
18             
19             #计算损失，使用交叉熵损失函数，取一个批次样本损失的平均值
20             loss = fluid.layers.cross_entropy(predict, label)
21             avg_loss = fluid.layers.mean(loss)
22             
23             #每训练了200批次的数据，打印下当前Loss的情况
24             if batch_id % 200 == 0:
25                 print("epoch: {}, batch: {}, loss is: {}".format(epoch_id, batch_id, avg_loss.numpy()))
26             
27             #后向传播，更新参数的过程
28             avg_loss.backward()
29             optimizer.minimize(avg_loss)
30             model.clear_gradients()
31 
32     #保存模型参数
33     fluid.save_dygraph(model.state_dict(), 'mnist')

loading mnist dataset from ./work/mnist.json.gz ......
epoch: 0, batch: 0, loss is: [2.609301]
epoch: 0, batch: 200, loss is: [0.36067933]
epoch: 0, batch: 400, loss is: [0.3503476]
epoch: 1, batch: 0, loss is: [0.29702342]
epoch: 1, batch: 200, loss is: [0.15377608]
epoch: 1, batch: 400, loss is: [0.1849378]
epoch: 2, batch: 0, loss is: [0.08589315]
epoch: 2, batch: 200, loss is: [0.10543882]
epoch: 2, batch: 400, loss is: [0.07615029]
epoch: 3, batch: 0, loss is: [0.1301367]
epoch: 3, batch: 200, loss is: [0.17038517]
epoch: 3, batch: 400, loss is: [0.13615657]
epoch: 4, batch: 0, loss is: [0.16349195]
epoch: 4, batch: 200, loss is: [0.1656445]
epoch: 4, batch: 400, loss is: [0.06402704]

虽然上述训练过程的损失明显比使用均方误差算法要小，但因为损失函数量纲的变化，我们无法从比较两个不同的Loss得出谁更加优秀。怎么解决这个问题呢？我们可以回归到问题的直接衡量，谁的分类准确率高来判断。

因为我们修改了模型的输出格式，所以使用模型做预测时的代码也需要做相应的调整。从模型输出10个标签的概率中选择最大的，将其标签编号输出。

 1 # 读取一张本地的样例图片，转变成模型输入的格式
 2 def load_image(img_path):
 3     # 从img_path中读取图像，并转为灰度图
 4     im = Image.open(img_path).convert('L')
 5     im.show()
 6     im = im.resize((28, 28), Image.ANTIALIAS)
 7     im = np.array(im).reshape(1, 1, 28, 28).astype(np.float32)
 8     # 图像归一化
 9     im = 1.0 - im / 255.
10     return im
11 
12 # 定义预测过程
13 with fluid.dygraph.guard():
14     model = MNIST("mnist")
15     params_file_path = 'mnist'
16     img_path = './work/example_0.jpg'
17     # 加载模型参数
18     model_dict, _ = fluid.load_dygraph("mnist")
19     model.load_dict(model_dict)
20     
21     model.eval()
22     tensor_img = load_image(img_path)
23     #模型反馈10个分类标签的对应概率
24     results = model(fluid.dygraph.to_variable(tensor_img))
25     #取概率最大的标签作为预测输出
26     lab = np.argsort(results.numpy())
27     print("本次预测的数字是: ", lab[0][-1])

本次预测的数字是:  0

百度PaddlePaddle入门-12（损失函数）

猜你喜欢