Preface
Notation
Functional Margins
Geometric Margins
Optimal Margin Classifier
- Step1：条件假设
- Step2：公式推演
Lagrange Duality
- Primal Problem
- Dual Optimization Problem
参考资料

Preface

本文对于SVM（Support Vector Machine，支持向量机）的做了一些准备工作，并在接下来的几篇文章正式初步学习SVM。
主要内容：
Notation（符号约定）
Functional Margins And Geometric Margins（函数间隔和几何间隔）
Optimal Margin Classifier（最有间隔分类器）
Primal Problem（原始问题）
Dual Optimization Problem（对偶优化问题）

Notation

在SVM学习中我们将改变之前的学习习惯：

分类标识由 $y \in \{0,1\} \to y \in \{-1,1\}$ ，来作为分类的标识来区分不同类别。例如 $y=-1$ 标识类别一， $y=1$ 标识类别二。
假设函数由 $h_\theta(x) = g(\theta^Tx),x \in \mathbb R^{n+1} \to h_{w,b}(x) = g(w^Tx+b),x \in \mathbb R^{n}$ 。
其中， $h_{w,b}(x) = g(w^Tx+b),x \in \mathbb R^{n}$ 中的w与b分别对应于 $h_\theta(x) = g(\theta^Tx)$ 中的对应关系为：
$\omega = [\theta_1,\theta_2...\theta_n]^T$
$b = \theta_0$

Functional Margins

定义：一个超平面 $(w,b)$ 和某个特定的训练样本 $(x_i,y_i)$ 相关的函数间隔为：

$\hat\gamma^{(i)}=y^{(i)}(w^Tx^{(i)}+b) \tag1$

超平面 $(w,b)$ 表示的是由参数 $w,b$ 确定的分界。

如果需要 $\hat\gamma^{(i)}$ 获得一个较大的值，那么：
当 $y^{(i)}=1$ 时，需要 $w^Tx^{(i)}+b$ 远大于0；
当 $y^{(i)}=-1$ 时，需要 $w^Tx^{(i)}+b$ 远小于0；

以及当 $\hat\gamma^{(i)}=y^{(i)}(w^Tx^{(i)}+b)>0$ 时，我们认为分类结果是正确的。

定义：一个超平面 $(w,b)$ 和整个的训练集中的所有训练样本 $(x_i,y_i)$ 相关的函数间隔为：

$\hat\gamma^{(i)}=\text{min}_{i=1,2,...,m} \hat \gamma^{(i)} \tag2$

Geometric Margins

这里写图片描述
通过上图我们可以知道，一个样本 $(x^{(i)},y^{(i)})$ A点到超平面 $w^Tx+b=0$ 的几何间隔为 $\gamma^{(i)}$ ，且 $\frac {w}{\Vert w \Vert}$ 为超平面 $w^Tx+b=0$ 指向A点方向的单位向量，A点 $(x^{(i)},y^{(i)})$ 在超平面 $w^Tx+b=0$ 上的投影B点为：

$x^{(i)} - \gamma^{(i)} \frac {w}{\Vert w \Vert} \tag3$

同时，由于B在超平面上，所以：

$w^T(x^{(i)} - \gamma^{(i)} \frac {w}{\Vert w \Vert} )+b=0\tag4$

注： $w^Tw=\Vert w \Vert^2$ 。

所以，我们可以得出几何间隔为 $\gamma^{(i)}$ ：

$\gamma^{(i)}=\frac {w^Tx^{(i)}+b}{\Vert w \Vert}=(\frac {w}{\Vert w \Vert} )^Tx^{(i)} + \frac {b}{\Vert w \Vert} \tag5$

由于我们总是考虑对训练样本的争取分类，所以将几何间隔为 $\gamma^{(i)}$ 一般化为：

$\gamma^{(i)}= y^{(i)}(\frac {w^Tx^{(i)}+b}{\Vert w \Vert}=(\frac {w}{\Vert w \Vert} )^Tx^{(i)} + \frac {b}{\Vert w \Vert} )\tag6$

如果 ${\Vert w \Vert} =1$ ， $\hat \gamma^{(i)} = \gamma^{(i)}$ 。更一般的有， $\gamma^{(i)} = \frac {\hat \gamma^{(i)} } {\Vert w \Vert}$ 。

定义：一个超平面 $(w,b)$ 和整个的训练集中的所有训练样本 $(x_i,y_i)$ 相关的几何间隔为：

$\gamma^{(i)}=\text{min}_{i=1,2,...,m} \gamma^{(i)} \tag7$

Optimal Margin Classifier

最优间隔是指调整参数 $w,b$ 使得几何间隔 $\gamma^{(i)}$ 最大。

Step1：条件假设

${\Vert w \Vert} =1$ ， ${\vert w_1 \vert} =1$ ， ${\Vert w \Vert}+{\vert w \vert}^2 =?$ 只需要选一个条件。
对于上述条件的解释：
调整参数 $w,b$ 对于超平面 $w^Tx+b=0$ 无影响，例如将 $w,b$ 扩大两倍 $2w,2b$ 得到 $2w^Tx+2b=0 \to 2*(w^Tx+b)=0$ ，即超平面位置不发生变化。所以我们可以通过缩放 $w,b$ 来满足上述条件。
${\vert w_1 \vert}$ 表示 $w$ 的第一个位置的数字为1。

Step2：公式推演

首先看看函数间隔，你给参数前乘一个大于零的数，函数间隔就会变大，这个不好。再来看看几何间隔，由于要将参数单位化，所以就不受参数的非因素影响，就是说当几何间隔最大的时候，真的就是训练样本距离超平面最大。这样用几何间隔就可以非常健壮的描述样本与超平面之间的距离。

形式一：
$\text{max}_{\gamma,w,b}\; \gamma \\s.t. \; y^{(i)}(w^Tx^{(i)}+b) \geq \gamma，i=1,...,m \\ {\Vert w \Vert}=1 \tag8$
形式二：
$\text{max}_{ {\gamma },w,b}\; \frac {\hat \gamma} {\Vert w \Vert} \\s.t. \; y^{(i)}(w^Tx^{(i)}+b) \geq \hat \gamma，i=1,...,m\tag9$
形式三：
$\text{min}_{ {\gamma },w,b} \; {\Vert w \Vert}^2 \\s.t. \; y^{(i)}(w^Tx^{(i)}+b) \geq \hat \gamma，i=1,...,m \\ \hat \gamma=1 \;s.t. \; \text{min} \; y^{(i)}(w^Tx^{(i)}+b)=1 \\ or \\ \text{max}_{ {\gamma },w,b} \; \frac{1}{\Vert w \Vert} \\s.t. \; y^{(i)}(w^Tx^{(i)}+b) \geq \hat \gamma，i=1,...,m \\ \hat \gamma=1 \;s.t. \; \text{min} \; y^{(i)}(w^Tx^{(i)}+b)=1 \tag{10}$

Lagrange Duality

我们会使用拉格朗日乘数法来解决关于约束优化问题：
我们的目标函数是：
这里写图片描述
接下来我们构造拉格朗日算子：

然后分别对参数进行求导，并令其为零：

然后解上述等式构成的方程组，求得 $w_i,\beta_i$ 。最后将 $w_i,\beta_i$ 带回到目标函数。

Primal Problem

在这里我们构造出原始优化问题的目标函数：
这里写图片描述
现在我们开始使用拉格朗日乘数法来解决原始优化问题：
我们定义一个增广拉格朗日函数，在这里 $\alpha_i$ 与 $\beta_i$ 为拉格朗日乘数：

定义一个 $\theta_p(w)$ 函数，这里的下标p表示primal：

所以：
这里写图片描述
所以 $\text{min} \; \theta_p(w)$ 就是我们的目标问题——原始优化问题：

Dual Optimization Problem

我们定义函数 $\theta_D(\alpha,\beta)$ ，其中D表示duo（对偶）：
这里写图片描述
现在我们定义对偶优化问题：

定义： $p^*$ 是原始优化问题 $\text{min} \; \theta_p(w)$ 的最优值。

定义： $d^*$ 是原始优化问题 $\text{max} \; \theta_D(\alpha,\beta)$ 的最优值。

有这样一个在通常条件下成立的事实： $d^* \leq p^*$ ，即对偶优化问题的最优值小于等于原始优化问题的最优值。更一般的有，对于某个函数 $f(x)$ 而言，总是存在 $\text{max} \; \text{min} f(x) \leq \text{min} \; \text{max}f(x)$ 。
For example： $\text{max}_{y \in \{0,1\}} \; (\text{min}_{x \in \{0,1\}} \; 1\{x=y\}) \leq \text{min}_{x \in \{0,1\}}\; (\text{max}_{y \in \{0,1\}} \; 1\{x=y\})$ 。

关于对偶理论可以参考运筹学（第四版）清华大学出版社第64页
对偶问题的一些性质：
1. 目标函数值相同时，各自的解为最优解
2. 若原问题有最优解，那么对偶问题也有最优解，且目标函数值相同
3. 还有互补松弛性，无界性，对称性等等

当原问题和对偶问题都取得最优解得时候，那么他们分别的目标函数也就到达了最优值。根据对偶问题的性质2，可以得到 $p^*=d^*$ 那么我们就可以求解对偶问题来得到原问题 $θ_p(w)$ 的最优值。

为了使得 $p^*=d^*$ 我们需要满足一些条件，接下来我们开始推演 $p^*=d^*$ ：
假设一： $f$ 是一个凸函数（ $f$ 的Hessian矩阵是半正定矩阵）。
假设二： $h_i$ 是仿射函数（ $h_i(w)=θ^Tw+b$ ，仿射的意思是这个函数任何时候都是线性的）。
假设三： $g_i$ 是严格可执行的（ $\exists \,w ,使得\forall\,i,\;g_i(w)<0$ ）

通过这三个假设，我们得到KKT(Karush-Kuhn-Tucker conditions)条件（ $\exists \; w^*,\alpha^*,\beta^*，w^*是原始最优问题的解，\alpha^*,\beta^*$ 是对偶最优问题的解， $p^*=d^*$ ），我们得到KKT：
这里写图片描述
其中， $\alpha_i^*g_i(w^*)=0$ 成为KKT互补条件，对于 $\alpha_i^*>0$ ，必有 $g_i(w^*)=0$ 。

参考资料

https://blog.csdn.net/xiaocainiaodeboke/article/details/50443680

Andrew Ng机器学习课程笔记（六）之监督学习之Support Vector Machine（1）