斯坦福机器学习第三课——牛顿迭代法与广义线性模型（Generalized Linear Models）

在进入正题之前，来讨论一下牛顿迭代法。

和梯度求导法一样，牛顿迭代法也是一种求最大似然的ℓ(θ)的方法。其基本过程为：

1.找到曲线上横坐标x=0的点f(0)

2.对f(0)点做切线

3.切线和横坐标交于另外一点A1，再找到曲线上对应的点f(1)

4.对f(1)点做切线

5.依次重复以上过程，直到f(x)=0为止。

与梯度求导法相比，牛顿迭代法收敛速度快，迭代次数少。但是代价高，因为它要对N*N维矩阵计算。因此我们可以根据矩阵的维度选择不同方式的计算方法。当矩阵维度较少时，选择牛顿迭代法比更好。反之亦然。

广义线性模型（Generalized Linear Models）

首先让我们来看维基百科上的定义：

在统计学上，广义线性模型 (Generalized linear model) 是一种应用广泛的线性回归模式。此模式假设实验者所量测的随机变量的分布函数与实验中系统性效应(即非随机的效应)可经由链接函数(link function)建立起解释其相关性的函数。

这里的分布函数一般是指数模型中的一个函数，用人话来讲就是其分布于链接函数g(η)有一定关系。

如果一个分布方式能够表示成一下方式便可以称作指数模型的一员。泊松分布、高斯分布、伯努利分布皆是。

η被称为这个分布的自然参数（natural parameter），T (y) 被称为充分统计量。

1. 对于给定的x和θ，y的分布，p(y;η)属于以η为参数的指数分模型

2. h(x)输出满足h(x) = E[y|x]

3.自然参数η与输出x是线性相关

线性回归模型是符合高斯分布的，逻辑回归模型符合伯努利分布。由于高斯分布和伯努利分布均是指数模型中的一员，因此我们可以证明线性回归模型和逻辑回归模型是特殊的一种广义线性模型分布的例子。

1.以逻辑回归模型证明过程为例：

伯努利分布可以拆分成如下形式：

对照着

可以把b(y)、T(y)、a(η)求出来

根据广义线性模型的需满足的条件可知

第一个等式是根据广义线性模型假设条件二得出，第二个等式是根据伯努利分布自身的特性求得，第三个等式是逻辑回归的自然分布φ=1/(1+)得到，第四个等式是利用广义线性模型假设条件三得到。最后我们便可以利用θ矩阵与输入x直接求得h(x)。

当我们需要对多类数据，如k类，进行判断时，可以用到Softmax回归模型。原因是因为，如果输入模型（例如班上人成绩高低）是指数模型中的一员（符合泊松分布），便可用广义线性模型求出h(x)。