机器学习---对偶问题 - 代码天地

机器学习---对偶问题

编程语言 2018-06-21 05:38:11 阅读次数: 2

本文参考整理了Coursera上由NTU的林轩田讲授的《机器学习技法》课程的第二章的内容，主要介绍了Hard Margin SVM Dual的基本概念和求解方法、支撑向量的几何含义等，文中的图片都是截取自在线课程的讲义。
欢迎到我的博客跟踪最新的内容变化。
如果有任何错误或者建议，欢迎指出，感激不尽！

对偶问题的动机

原来的SVM如果要进行非线性变换，需要在转换后的Z空间(假设为d~维度)内进行linear SVM的求解，则在Z空间里的线性分类对应到原来的X空间可能就是一个non-linear的复杂边界。

问题：Z空间的QP问题有d_{+1个变量、N个约束。如果d}非常大甚至无穷大，就很难甚至不可能求解。

目标：让SVM模型的求解不再依赖转换后的空间维度d~，以能够使用非常多的、非常复杂的特征转换。

将original问题转换为dual(对偶)问题，该问题与原问题等价即可。

基本工具: Lagrange Multipliers

将Lagrange Multipliers当做变量求解，SVM中的每一个条件都会对应一个Lagrange Multiplier，所以共有N个变量。

注意:在SVM的文献中通常把Lagrange Multipliers的λ叫做α。

出发点

将有约束优化问题转换为无约束的优化问题。

原始问题：

定义Lagrange Function:

则原始问题等价于

如何证明两个问题的解一样？

考虑两种情况：

如果某个(b,W)不满足原始问题的N个条件之一，即某个1-yn(W’Zn+b)＞0，则内部的Max操作会将αn推向无穷大，在min操作中会被淘汰。
如果某个(b,W)满足原始问题的所有约束，则内部Max将所有的αi都推向0，即内部的max结果就是目标的1/2W’W的值，在外部的min操作中就会取得满足条件的(b,W)中目标函数最小的组合，和原始问题一样。

本质上就是把条件藏在了max操作里面，不满足条件的(b,W)一定不会被选择。

现在我们有了新的问题，它有哪些性质呢？

对于任何确定的α'【满足每一个元素α'n>=0】，则有

因为对于某一个(b,W)，内部的max(L)始终大于等于L，则左边的最低点也一定大于等于右边的最低点。
简单地说，因为max>=any。

因为对于任何α'都有上式成立，所以

因为最大的是任意的α'中的某一个。

观察发现，只不过是把min和max操作交换了顺序，称该问题为Lagrange对偶问题。

只要我们解决了Lagrange Dual Problem，就得到了original problem的一个下限。

对偶性的强弱

'>='：弱对偶性(weak duality)
'=': 强对偶性(strong duality)

由最优化理论可得：
对于QP问题，如果满足：

原始问题是凸型的 convex primal
原始问题是有解的(如果Φ转换后数据点是线性可分的，则成立) feasible primal
线性约束条件
称为 '条件资格' (constraint qualification)。

则对偶问题是强对偶问题，即存在原始-对偶最优解(b,W,α)在两侧都能最优。

化简对偶问题

inner problem：里面的问题，即min操作，是没有条件约束的，因此在最优点上，满足：

因此，加上该条件的最优解不变。

加上该条件，可以把变量b消去。

同理，对W进行类似的处理：

把最优解的条件加在对偶问题上：

求解b和W

现在最佳化问题只有变量α了，其他变量b和W根据和α的关系被α所表示。
求得α后，再根据这些关系求出b和W。

这些关系，我们一般叫做KKT最优条件(KKT Optimality Conditions)
KKT是三个做最优化的研究者的名字首字母(Karush-Kuhn-Tucker)。

如果原始-对偶最优解(b,W,α)：

其中第4个条件，一般称为互补松弛条件(complementary slackness)

以上的推导说明KKT条件是最优解的必要条件[necessary]，但也可以证明对于我们的问题来说，它也是充分的[sufficient]。

因此我们可以利用KKT条件根据最优的α来求解(b,W)。

Standard Hard-Margin SVM dual

再做一些微小的改写：

该问题称为“标准硬边界SVM的对偶问题”。

该问题仍然是一个QP凸问题，有N个变量(α1..N)，N+1个条件(一个=0，N个>=0)。

仍然使用QP Solver求解。

QP系数

注意：很多QP程序可以很方便的直接特殊处理等式(A>=、A<=)或者边界类条件(an>=0)，这样可以保证它们的数值稳定性

Q矩阵中的元素q(n,m)一般非0，是稠密矩阵(dense)，且N大时，Q矩阵很大。

因此需要特殊的求解QP的程序(专门为SVM设计的)，不存储整个Q矩阵，或者利用SVM的一些特殊条件来加速求解。

因此在实践中，我们通常最好使用特别为SVM设计的QP求解算法。

获得b和W

利用KKT条件：

得到W:

得到b:

和b有关的约束

只能告诉我们一个b的范围

如果某个αn>0 ==> (1 - yn(W’Zn + b)) = 0
两边都乘上yn，得
(yn - (W’Zn + b)) = 0
即
b = yn - W’Zn

上式告诉我们 yn(W’Zn + b) = 1，说明该点在胖胖的边界上，即是一个支撑向量(Support Vector)。

支撑向量的确切定义

我们把αn>0的点(Zn,yn)叫做support vectors，即支撑向量。

它一定在胖胖的边界上，但不是所有在胖胖的边界上的点都是SV，它们都是support vectors candidate。

即

SV的性质

计算W和b时，只需要用到支撑向量SV的点。

所以SVM是一种利用求解对偶问题的最优解，找出支撑向量来学习出最胖的分隔超平面的过程。

最胖分隔超平面的表示形式

即W是ynZn的线性组合。

这对于当W0=0时，使用GD/SGD的LogReg或者LinReg也成立。

称作 W 能够被数据点所表示(represented)。

SVM: 只需要SV就可以线性表示出W。

PLA: 只需要犯错的点就可以线性表示W。

Hard-Margin SVM的两种形式

两者最终都是得到最优的假设函数：

我们真的做到脱离d~了吗？

其实没有，计算Q矩阵时，每个q(n,m)都需要计算Zn'Zm，这是一个在R(d_{)空间中的两个向量的内积，需要时间至少为O(d})。

因此我们要想办法避开计算转换后的高维空间中向量的内积。

这部分内容需要利用kernel function的威力，我们在下一讲进行探讨。

Mind Map Summary

猜你喜欢

转载自blog.csdn.net/Julialove102123/article/details/80729367

机器学习---对偶问题

[机器学习] 支持向量机——对偶问题

《机器学习技法》第2课笔记对偶学习问题

机器学习：支持向量机SVM对偶问题

机器学习技法------对偶SVM

机器学习感知机对偶形式笔记

机器学习笔记二十：拉格朗日函数/对偶

机器学习：SVM算法的对偶形式

机器学习---支持向量机（三）对偶问题、松弛变量详解

机器学习读书笔记第六章支持向量机(2):对偶问题

《机器学习(周志华)》笔记--支持向量机（2）--对偶问题：优化问题的类型、对偶问题、解的稀疏性、硬间隔与软间隔

斯坦福CS229机器学习笔记-Lecture7- SVM支持向量机之最优间隔分类器 + 原始/对偶问题 + SVM对偶问题

对偶问题

对偶学习

【机器学习】拉格朗日对偶性

机器学习技法笔记2：SVM的对偶形式

机器学习笔记(8)-对偶关系和KKT条件

深度学习2：支持向量机与对偶问题的转化，强对偶定理，SVM算法总结

函数间隔与几何间隔、最优间隔分类器、原始问题与对偶问题、最优间隔分类器-机器学习公开课第七讲

原始问题与对偶问题

线性规划——对偶问题的对偶问题

学习SVM（三）理解SVM中的对偶问题

最优化问题学习笔记1-对偶理论

手推机器学习系列笔记——手推SVM(2) 对偶问题探讨、Slater条件、核技巧、SMO算法推导+简单实现代码、数据集

手推机器学习系列笔记——手推SVM(1)硬间隔、软间隔、约束优化问题、对偶性证明、KKT条件

SVM对偶问题

对偶问题求解daidingdaiding

凸优化与对偶问题

对偶问题的解释

何为对偶问题

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)