机器学习基石——Lecture 2：Learning to Answer Yes/No

本节课将继续深入探讨机器学习问题，介绍感知机 Perceptron 模型，并推导课程的第一个机器学习算法： Perceptron Learning Algorithm（PLA）

2.1 Perceptron Hypothesis Set 感知器的假设集

引例：某银行要根据用户的年龄、性别、年收入等情况来判断是否给该用户发信用卡。现在有训练样本 D，即之前用户的信息和是否发了信用卡。这是一个典型的监督式机器学习问题，我们要根据 D，通过 A，在 H 中选择最好的 h，得到 g，接近目标函数 f，也就是根据先验知识建立是否给用户发信用卡的模型。银行用该模型对以后用户进行判断：发信用卡(+1）或不发信用卡(-1）

银行掌握了用户的各种属性，如年龄，年薪，工作年限，负债情况等等，这些属性可以作为样本输入 $x = \left \{ x_{1},x_{2},x_{3},...,x_{d} \right \}^{T}$ 的向量属性值。同时我们还需要另一个输入，即假设空间 H .这种学习的模型称之为感知器（Perceptron）

在这个机器学习的整个流程中，有一个部分非常重要：就是模型选择。选择什么样的模型，很大程度上会影响机器学习的效果和表现。

下面介绍感知器假设集 Perceptron Hypothesis Set

这种假设空间的思想就类似考试给的成绩，对每一题给一个特定的分数（即对输入向量每个属性乘以一个加权值 wi ），再设计一个及格线，即所谓的阈值或者叫门槛值（threshold），如果加权求和的分数大于这个及格线就叫及格了，即对应的输出值为 1，小于这个及格线成为不及格，对应的输出值为-1，由 w 不同给出一个关于 h(x)的集合。

为了计算方便，通常我们将阈值threshold当做，引入一个的量与相乘，这样就把threshold也转变成了权值，简化了计算。其中 h(x)∈H.

为了更清晰地说明感知机模型，我们假设 Perceptrons 在二维平面上表达式： $h\left ( x \right ) = sign\left ( w_{0} + w_{1}x_{1} + w_{2}x_{2} \right )$
其中， $w_{0} + w_{1}x_{1} + w_{2}x_{2}$ 是平面上一条分类直线，直线一侧是正类（+1），直线另一侧是负类（-1）。权重 w 不同，对应于平面上不同的直线。
Perceptron 在这个模型上就是一条直线，称之为一条二元线性分类器 linear(binary) classifiers.
[注 1] 感知器线性分类不限定在二维空间中，在 3 维空间中，线性分类用平面表示；在更高维度中，线性分类用超平面表示；只要是形如 $w^{T}x$ 的线性模型就属于 linear(binary) classifiers.
[注 2] 线性分类问题还可以使用逻辑回归 Logical regression 解决。

2.2 Perceptron Learning Algorithm (PLA)

根据上一部分的介绍，我们已经知道了 hypothesis set 由许多条直线构成。接下来，我们的目的就是思考如何设计一个感知器学习算法 A，来选择一个最好的直线，能将平面上所有的正类和负类完全分开，即找到最好的 g，使 g≈f。
如何找到这样一条最好的直线呢？

我们可以使用逐点修正的思想，首先在平面上随意取一条直线，看看哪些点分类错误。然后开始对第一个错误点就行修正，即变换直线的位置，使这个错误点变成分类正确的点。接着，再对第二个、第三个等所有的错误分类点纠正，直到所有的点都完全分类正确了，就得到了最好的直线。这种“逐步修正”，就是 PLA思想所在。

在什么情况下要修正w： $sign\left ( w^{T}x_{n} \right ) \neq y_{n}$

修正的公式： $w_{t} = w_{t-1} + y_{n\left ( t \right )}x_{n\left ( t \right )}$

下面介绍一下PLA是怎么做的。

首先随机选择一条直线进行分类。然后找到第一个分类错误的点，如果这个点表示正类被误分为负类，即 $w_{t}^{T}x_{n\left ( t \right )} < 0$ ，表示 w 和 x 夹角大于 90 度，其中 w 是直线的法向量。所以， x 被误分在直线的下侧（相对于法向量，法向量的方向即为正类所在的一侧）。修正的方法就是使 w 和 x 夹角小于 90 度。通常做法是 w←w+yx, y=1，如上图所示，一次或多次更新后的 w+yx 与 x 夹角小于 90 度，能保证 x 位于直线的上侧，对误分为负类的错误点完成了直线修正。

同理，如果是误分为正类的点，即 $w_{t}^{T}x_{n\left ( t \right )} > 0$ ，那表示 w 和 x 夹角小于 90 度。所以，x 被误分在直线的上侧，修正的方法就是使 w 和 x 夹角大于 90 度。通常做法是w←w+yx, y=-1，如上图所示，一次或多次更新后的 w+yx 与 x 夹角大于 90 度，能保证 x 位于直线的下侧，则对误分为正类的错误点也完成了直线修正。

按照这种思想，遇到个错误点就进行修正，不断迭代。要注意一点：每次修正后得到的直线，可能使之前分类正确的点变成错误点，这是可能发生的。但是没关系，不断迭代，不断修正，最终会将所有点完全正确分类（PLA 前提是线性可分的）。这种做法的思想是“知错能改”，有句话形容它： “A fault confessed is half redressed”.

实际操作中，可以将训练样本编号，从 1 到 n，整个训练样本就有 n 个点。以按从 1 到n 的顺序不断查找错误点，如果没有错就自动的用下一个样本点继续查找，当从 1 到 n 这 n个样本点都没有产生错误时，算法即结束得到 g。将这种方式的算法叫做 Cyclic PLA。

下面用图解的形式来介绍 PLA 的修正过程：

对 PLA，我们需要考虑以下两个问题：
PLA 迭代一定会停下来吗？如果线性不可分怎么办？
PLA 停下来的时候，是否能保证 f≈g？如果没有停下来，是否有 f≈g？

2.3 Guarantee of PLA PLA 算法可行的保障

PLA什么时候会停下来呢？根据PLA的定义，当找到一条直线，能将所有平面上的点都分类正确，那么PLA就停止了。要达到这个终止条件，就必须保证D是线性可分（linear separable）。如果是非线性可分的，那么，PLA就不会停止。

什么是线性可分呢？简单的说就是存在一条直线能将两类样本点完全分开。

其中最左边的为线性可分的训练样本，而右边两个图形为线性不可分的两种情况，这两种情况会在后面的章节一一解释。

我们需要证明在线性可分的情况下，权值向量在经过一段时间的修正会停止，记T次修正会有一个上界。

对于线性可分的情况，如果有这样一条直线，能够将正类和负类完全分开，令这时候的目标权重为 $w_{f}$ ，则对每个点，必然满足 $y_{n} = sign\left ( w_{f}^{T}x_{n}\right )$ ，即对任一点：

PLA会对每次错误的点进行修正，更新权重 $w_{t+1}$ 的值，如果 $w_{t+1}$ 与 $w_{f}$ 越来越接近，数学运算上就是内积越大，那表示 $w_{t+1}$ 是在接近目标权重 $w_{f}$ ，证明PLA是有学习效果的。所以，我们来计算 $w_{t+1}$ 与 $w_{f}$ 的内积：

从推导可以看出， $w_{t+1}$ 与 $w_{f}$ 的内积跟 $w_{t}$ 与 $w_{f}$ 的内积相比更大了。似乎说明了 $w_{t+1}$ 更接近 $w_{f}$ ，但是内积更大，可能是向量长度更大了，不一定是向量间角度更小。所以，下一步，我们还需要证明 $w_{t+1}$ 与 $w_{t}$ 向量长度的关系：

我们需要求解的是这两个向量做归一化（就是各自除以自身的L1范式得到单位向量）后的內积 $\frac{w_{f}^{T}w_{T}}{\left \|w_{f}^{T} \right \| * \left \| w_{T} \right \|}$ ，这时它俩的內积的上界即为1.

对于线性可分的情况，存在这么一条直线，即目标函数f，可将正类和负类完全分开，那么对于每个点，必然满足 $y_{n} = sign\left ( w_{f}^{T}x_{n}\right )$ ，同时由前面的对错误点的进行更新权重w的方法， $w_{t+1} = w_{t} + y_{n\left ( t \right )}x_{n\left ( t \right )}$ ，最终得出关于T的不等式。

公式推导：

上述不等式左边其实是 $w_{T}$ 与 $w_{f}$ 夹角的余弦值，随着T增大，该余弦值越来越接近1，即 $w_{T}$ 与 $w_{f}$ 越来越接近。同时，需要注意的是， $\sqrt{T} * constant \leq 1$ ，也就是说，迭代次数T是有上界的。根据以上证明，我们最终得到的结论是： $w_{T+1}$ 与 $w_{f}$ 是随着迭代次数增加，逐渐接近的。而且，PLA最终会停下来（因为T有上界），实现对线性可分的数据集完全分类。

2.4 Non-Separable Data

上一节的阐述 PLA 这个算法一定会停下来这一结论，是建立在存在一个目标函数，可以将所有的数据点都线性分开这个假设的基础之上。

好处是速度挺快的，之前虽然都只是在二维，这里都是向量运算实际上二维跟一百维都是类似的

坏处是我们要假设这个资料是线性可分，如果假设不成立PLA根本就跑不完，我们不知道这个假设对不对，就算我们知道有这个 $w_{f}$ ，那么需要多久会停下来？

如果我们的资料不是线性可分怎么办？

对于线性不可分的情况，我们可以认为训练样本存在噪音（noise），大多数情况下，我们遇到的数据集 D,都或多或少的掺杂了 noise， noise 的出现如录入样本时有人工的错误等情况导致数据本身不正确等等。

当噪音占整个数据集的比例一般不会太大时，我们可以用上面思路计算出 g，我们找出一条线犯错误最小

事实证明，上面的解是NPhard问题，难以求解。然而，我们可以对在线性可分类型中表现很好的PLA做个修改，来找到一个差不多很好的线。

这里介绍一个叫 pocket 的算法，它的本质是一种贪心算法：
1. 首先，随机的初始化一个权值向量 w
2. 随机的使用 n 个点中的一个点去发现是否有错误（此处与 cyclic PLA 使用的循环方式有所不同，不是按顺序一个一个的查看是否符合条件，而是在 n 个点中随机的抽取，这种方式可以增加其寻找最优解的速度）
3. 和 PLA 一样使用公式 $w_{t+1} = w_{t} + y_{n\left ( t \right )}x_{n\left ( t \right )}$ 进行修正.
4. 修正后，则计算出刚刚修正过的权值向量和上一个权值向量到底谁犯的错误比较少，将少的保留重复第 2 步到第 4 步的动作。
5.假如很长时间都没有新的权值向量比当前的权值向量犯错更少，则返回该向量作为函数 g。