动手学深度学习--3、深度学习基础

深度学习基础
从本章开始,我们将探索深度学习的奥秘。做为机器学习的一类,深度学习通常基于神经网络模型逐级表示越来越抽象的概念或模式。我们先从线性回归和softmax回归这两种单层神经网络入手,简要介绍机器学习中的基本概念。然后,我们由单层神经网络延伸到多层神经网络,并通过多层感知机引入深度学习模型。在观察和了解了模型的过拟合现象后,我们将介绍深度学习中应对过拟合的常用方法:权重衰减和丢弃法。接着,为了进一步理解深度学习模型训练的本质,我们将详细解释正向传播和反向传播。掌握这两个概念后,我们能更好地认识深度学习中的数值稳定性和初始化的一些问题。最后,我们通过一个深度学习应用案例对本章内容学以致用。

3.1 线性回归
在本章的前几节,我们先介绍单层神经网络:线性回归和softmax回归。线性回归输出是一个连续值,因此适用于回归问题。回归问题在十几种很常见,例如预测房屋价格、气温、销售额等连续值的问题。与回归问题不同,分类问题中模型的最终输出是一个离散值,我们所说的图像分类、垃圾邮件识别、疾病监测等输出为离散值的问题都属于分类问题的范畴。softmax回归则适用于分类问题。由于线性回归和softmax回归都是单层神经网络,它们涉及到的概念和技术同样适用于大多数的深度学习模型。我们首先以线性回归为例,介绍大多数深度学习模型的基本要素和表示方法。
3.1.1 线性回归的基本要素
我们以一个简单的房屋价格预测做为例子来解释线性回归的基本要素。这个应用的目标是预测一栋房子的售出价格。我们知道这个价格取决于很多因素,例如房屋状况、地段、市场行情等。为了简单起见,这里我们假设价格只取决于房屋状况的两个因素:面积和房龄。接下来我们希望探索价格与这两个因素的具体关系。
模型
设房屋的面积为\(x_1\),房龄为\(x_2\),售出价格为\(y\)。我们需要建立基于\(x_1和x_2\)来计算输出\(y\)的表达式,也就是模型(model)。顾名思义,线性回归假设输出与各个输入之间是线性关系:
\[\hat{y}=x_1 w_1 + x_2 w_2 + b\]
其中\(w_1,w_2\)是权重(weight),\(b\)是偏置(bias),且均为标量。它们是线性回归模型的参数(paramater)。模型输出\(\hat{y}\)是线性回归对真实价格\(y\)的预测或估计。我们通常允许它们之间有一定的误差。
模型训练
接下来我们需要通过数据来邱钊特定的模型参数值,使得模型在数据上的误差尽可能小。这个过程叫做模型训练(model training)。下面我们介绍模型训练所涉及的三个要素。
训练数据
我们通常收集一系列的真实数据,例如多栋房屋的真实售出价格和它们对应的面积和房龄,我们希望在这个数据上面寻找模型参数来最小化模型的预测价格和真实价格的误差。在机器学习术语里,该数据集成为训练数据集(training data set)或训练集(training set),一栋房屋被成为一个样本(sample),真实售出价格叫做标签(label),用来预测标签的连个因素叫做特征(feature)。特征用来表征样本的特点。

猜你喜欢

转载自www.cnblogs.com/laojifuli/p/12126302.html