斯坦福CS229机器学习课程笔记一：线性回归与梯度下降算法

机器学习三要素

机器学习的三要素为：模型、策略、算法。

模型：就是所要学习的条件概率分布或决策函数。
线性回归模型

策略：按照什么样的准则学习或选择最优的模型。
最小化均方误差，即所谓的 least-squares(在spss里线性回归对应的模块就叫OLS即Ordinary Least Squares)：

算法：基于训练数据集，根据学习策略，选择最优模型的计算方法。
确定模型中每个θi取值的计算方法，往往归结为最优化问题。对于线性回归，我们知道它是有解析解的，即正规方程 The normal equations：

监督学习(Supervised Learning)

SupervisedLearning,Wiki
　　通过训练资料（包含输入和预期输出的数据集）去学习或者建立一个函数模型，并依此模型推测新的实例。函数的输出可以是一个连续的值（回归问题,Regression），或是预测一个分类标签（分类问题,Classification）。
机器学习中与之对应还有：
　　无监督学习(Unsupervised Learning)
　　强化学习(Reinforcement Learning)

在课程中定义了一些符号：

x(i):输入特征(input features)
y(i) :目标变量(target variable)
(x(i),y(i)) :训练样本(training example)
{(x(i),y(i));i=1,...,m} :训练集合(training set)
m :训练样本数量
h :假设函数(hypothesis)

线性回归(Linear Regression)

例子：房屋价格与居住面积和卧室数量的关系

在这里输入特征变成了两个x1,x2,目标变量就是价格
x1: Living area
x2: bedrooms
可以把它们称之为x的二维向量。
在实际情况中，我们需要根据你所选择的特征来进行一个项目的设计。

我们之前已经了解了监督学习，所以需要我们决定我们应该使用什么样的假设函数来进行训练参数。线性函数是最初级，最简单的选择。
所以针对例子假设函数：

其中的θ就是要训练的参数（也被成为权重），我们想要得到尽可能符合变化规律的参数，使得这个函数可以用来估计价格。
因为要训练θ，所以引入cost function(损失函数／成本函数)

对于线性规划问题，通常J函数（误差平方和）是碗状的，所以往往只会有一个全局最优解，不用过多担心算法收敛到局部最优解。

最小二乘法(LMS algorithm)

课程中的比喻很形象，将用最快的速度最小化损失函数比作如何最快地下山。也就是每一步都应该往坡度最陡的方向往下走，而坡度最陡的方向就是损失函数相应的偏导数，因此算法迭代的规则是：

其中α是算法的参数learning rate，α越大每一步下降的幅度越大速度也会越快，但过大有可能导致算法无法收敛。

假设只有一个训练样本 $(x, y)$ $θ_{j} := θ_{j} + α (y^{(i)} - h_{θ} (x^{(i)})) x_{j}^{(i)}$

$(x, y)$

在面对多个样本进行处理时，就需要在此基础上演变更新规则。有两种策略：
批量梯度下降 batch gradient descent

随机梯度下降 stochastic gradient descent (incremental gradient descent)

当训练样本量很大时，batch gradient descent的每一步都要遍历整个训练集，开销极大；而stochastic gradient descent则只选取其中的一个样本。因此训练集很大时，后者的速度要快于前者。