[斯坦福大学2014机器学习教程笔记]第二章-模型描述

我们第一个学习算法是线性回归算法，在这节中，你会看到这个算法的概况，更重要的是你会了解整个监督学习过程。

下面我们来举一个例子，我们要根据不同房屋尺寸所售出的价格，画出我的数据集。

比方说，如果你朋友的房子是1250平方尺大小，你要告诉他这房子能卖多少钱。那么，你可以做的一件事就是构建一个模型，也许是条直线，从这个数据模型上来看，也许你可以告诉你的朋友，他能以大约220000(美元)左右的价格卖掉这个房子。

这显然是一个监督学习算法的例子。因为每一个例子都有一个“正确的答案”。也就是说，我们知道了数据集中卖出的房子实际的大小以及价格。而且，它还是一个回归问题的例子。回归指的是我们预测一个具体的数值输出（在这个例子中也就是价格）。

注意：另一种最常见的监督学习问题被称为分类问题。我们用它来预测离散值的输出。比如我们观察肿瘤并试图判断它是良性还是恶性，这是只有0和1的离散输出。

更正式一点说，在监督学习里，我们有一个数据集，它被称为一个训练集。

以住房价格为例，我们有一个房价的训练集，我们的工作是从这个数据中学习如何预测房价。

让我们来定义一些课程中会用到的符号。

用小写m表示训练样本的数量。在这个例子中，如果我们有47行，就意味着我们有47个训练样本，则m=47。
用小写x表示输入变量或者说特征。在这个例子中，x为房子的面积。
用小写y表示输出变量，也就是我要预测的目标变量。在这个例子中，y为住房价格。
用(x,y)表示一个训练样本。表格中的一行表示一个训练样本。
用(x⁽ⁱ⁾,y⁽ⁱ⁾)表示第i个训练样本（一个特定的样本）。注意这个i并不是幂指数，这只是训练集的一个索引，指的是这个表格中的第i行。在这个例子中，x⁽¹⁾=2104,y⁽¹⁾=460。

接下来我们看一下监督学习算法是怎么样工作的。

首先，我们向学习算法提供训练集。比如我们的房价训练集。

学习算法的任务是输出一个函数，通常是用小写h表示。h代表假设函数。h是一个引导从x得到y的函数。在这个例子中，假设函数的作用就是把房子大小作为输入变量x，它会试着输出相应房子的价格预测值y。

当我们设计一个学习算法时，下一个需要做的事是决定怎么表示这个假设函数h，所以接下来几节我们将学习最初的假设函数。

怎么表达h？一种表达方式为h_θ(x)=θ₀+θ₁x。

这种模型被称为线性回归。这个例子是一个一元线性回归。又叫单变量线性回归。