(读李航老师的《统计学习方法》总结摘录一些内容)
原始问题与拉格朗日函数
假设
f(x),ci(x),hj(x)是定义在
Rn上的连续可微函数。对于一个约束最优化问题:
min f(w)s.t. gi(w)⩽0,i=1,2,...,k hw=0,i=1,2,...,l(1)
首先引入拉格朗日函数:
L(x,α,β)=f(x)+i=1∑kaici(x)+j=1∑lβjhj(x)(2)
这里
x=(x(1),x(2),...,x(n))T∈Rn,αi,βj是拉格朗日乘子,其中
αi⩾0.考虑x的函数:
θp(x)=α,β:α⩾0maxL(x,α,β)(3)
分两种情况分析问题(3):
- 对于
θp问题,如果给定某一个x,x违反约束最优化问题(1)中的
gi(w),hj(w)。那么就有:
θp(x)=α,β:α⩾0maxL(x,α,β)=+∞(4)
这是因为:对于某个违反约束条件的
xk,则有
ck(w)>0,or ,hk(w)̸=0。为了使式(4)成立,有下面两种方法。
- 如果有
ck(w)>0,则可令
αi→+∞。使得其他的
αi,βi=0。
- 如果有
hk(w)̸=0,则可令
αi,βj→+∞。使得其他的
αi,βi=0。
- 如果所有的x都满足最优化问题(1)的约束条件,可知公式(3)
θp(x)=f(x)。
所以公式(3),就可以转换为:
{f(x),+∞,x满足原始问题约束其他(5)
考虑公式(3)的最小化问题
考虑公式(3)的最小化问题有:
xmin θp(x)=xminα,β:α⩾0maxL(x,α,β)(6)
问题(4)称为拉格朗日的极小极大问题,它和问题(1)是等价的。这样我们定义原始问题的最优解:
p∗=xmin θp(x)(7)
对偶性
定义:
θD(α,β)=xmin L(x,α,β)(8)
考虑问题(8)的极大问题:
α,β:αi⩾0maxθD(α,β)=α,β:αi⩾0max xmin L(x,α,β)(9)
问题(9)
α,β:αi⩾0max xmin L(x,α,β)被称为广义拉格朗日的极大极小问题:
将其表示为:
α,βmax θD(α,β)=α,βmax xmin L(x,α,β)s.t. αi⩾0, i=1,2,...,k(10)
问题10就是原始问题的对偶问题。定义对偶问题的最优解。
d∗=α,β:αi⩾0maxθD(α,β)(11)
对偶问题和原始问题的关系
在某些情况下原始问题的解
p∗和对偶问题的解
d∗相同。
- 考虑原始问题(1)和对偶问题(10)。假设函数
f(x),ci(x)是凸函数,
hj(x)是仿射函数。并且假设不等式约束
ci是严格约束,即存在x,对于所有的i有
ci<0,则存在
x∗,α∗,β∗,使得
xi是原始问题的解,
α∗,β∗是对偶问题的解。有:
p∗=d∗=L(x∗,α∗,β∗)(12)
如果
xi是原始问题的解,
α∗,β∗是对偶问题的解,则
x∗,α∗,β∗必须同时满足满足原始问题和对偶问题的约束,即KTT条件:
▽xL(x∗,α∗,β∗)=0α∗ci(x∗)=0, i=1,2,...,kci(x∗)≤0, i=1,2,...,kai∗≥0, i=1,2,...,khj(x(∗))=0, j=1,2,...,k(13)
红色的公式称为KTT对偶互补条件。由此件可知:若
ai∗>0,则有
ci(x∗)=0