拉格朗日及其对偶性

(读李航老师的《统计学习方法》总结摘录一些内容)

原始问题与拉格朗日函数

假设 f ( x ) , c i ( x ) , h j ( x ) f(x),c_{i}(x),h_{j}(x) 是定义在 R n \mathbf{R}^{n} 上的连续可微函数。对于一个约束最优化问题:
(1) m i n   f ( w ) s . t .   g i ( w ) 0 i = 1 , 2 , . . . , k   h w = 0 , i = 1 , 2 , . . . , l min\ f\left(w\right) \\ s.t.\ g_{i}(w) \leqslant 0, i=1,2,...,k \\ \ h_{w} = 0, i = 1,2,...,l\tag{1}
首先引入拉格朗日函数:
(2) L ( x , α , β ) = f ( x ) + i = 1 k a i c i ( x ) + j = 1 l β j h j ( x ) L(x,\alpha,\beta) = f(x) + \sum _{i=1}^{k}a_{i}c_{i}(x) + \sum_{j=1}^{l}\beta_{j}h_{j}(x)\tag{2}
这里 x = ( x ( 1 ) , x ( 2 ) , . . . , x ( n ) ) T R n , α i , β j x = (x_{(1)},x_{(2)},...,x{(n)})^{T} \in \mathbf{R}^{n},\alpha_{i},\beta_{j} 是拉格朗日乘子,其中 α i 0 \alpha_{i}\geqslant 0 .考虑x的函数:
(3) θ p ( x ) = m a x α , β : α 0 L ( x , α , β ) \theta_{p}(x) = \underset{\alpha,\beta:\alpha\geqslant 0}{max} L(x,\alpha,\beta)\tag{3}

分两种情况分析问题(3):

  1. 对于 θ p \theta_{p} 问题,如果给定某一个x,x违反约束最优化问题(1)中的 g i ( w ) , h j ( w ) g_{i}(w),h_{j}(w) 。那么就有:
    (4) θ p ( x ) = m a x α , β : α 0 L ( x , α , β ) = + \theta_{p}(x) = \underset{\alpha,\beta:\alpha\geqslant 0}{max} L(x,\alpha,\beta) = +\infty \tag{4}
    这是因为:对于某个违反约束条件的 x k x_{k} ,则有 c k ( w ) > 0 , o r   , h k ( w ) 0 c_{k}(w) >0,or\ , h_{k}(w) \neq 0 。为了使式(4)成立,有下面两种方法。
    - 如果有 c k ( w ) > 0 c_{k}(w) >0 ,则可令 α i + \alpha_{i} \rightarrow +\infty 。使得其他的 α i , β i = 0 \alpha_{i},\beta_{i}=0
    - 如果有 h k ( w ) 0 h_{k}(w) \neq 0 ,则可令 α i , β j + \alpha_{i},\beta_{j}\rightarrow +\infty 。使得其他的 α i , β i = 0 \alpha_{i},\beta_{i}=0
  2. 如果所有的x都满足最优化问题(1)的约束条件,可知公式(3) θ p ( x ) = f ( x ) \theta_{p}(x) = f(x)
    所以公式(3),就可以转换为:
    (5) { f ( x ) , x + , \left\{\begin{matrix} f(x),&x满足原始问题约束 \\ +\infty,&其他 \end{matrix}\right.\tag{5}

考虑公式(3)的最小化问题

考虑公式(3)的最小化问题有:
(6) m i n x   θ p ( x ) = m i n x m a x α , β : α 0 L ( x , α , β ) \underset{x}{min}\ \theta_{p}(x) = \underset{x}{min}\underset{\alpha,\beta:\alpha\geqslant 0}{max} L(x,\alpha,\beta) \tag{6}
问题(4)称为拉格朗日的极小极大问题,它和问题(1)是等价的。这样我们定义原始问题的最优解:
(7) p = m i n x   θ p ( x ) p^{*} = \underset{x}{min}\ \theta_{p}(x)\tag{7}

对偶性

定义:
(8) θ D ( α , β ) = m i n x   L ( x , α , β ) \theta_{D} (\alpha,\beta) = \underset{x}{min} \ L(x,\alpha,\beta)\tag{8}
考虑问题(8)的极大问题:
(9) m a x α , β : α i 0 θ D ( α , β ) = m a x α , β : α i 0   m i n x   L ( x , α , β ) \underset{\alpha,\beta:\alpha_{i}\geqslant0}{max}\theta_{D} (\alpha,\beta) = \underset{\alpha,\beta:\alpha_{i}\geqslant0}{max}\ \underset{x}{min}\ L(x,\alpha,\beta)\tag{9}
问题(9) m a x α , β : α i 0   m i n x   L ( x , α , β ) \underset{\alpha,\beta:\alpha_{i}\geqslant0}{max}\ \underset{x}{min}\ L(x,\alpha,\beta) 被称为广义拉格朗日的极大极小问题:
将其表示为:
(10) m a x α , β   θ D ( α , β ) = m a x α , β   m i n x   L ( x , α , β ) s . t .   α i 0 ,   i = 1 , 2 , . . . , k \underset{\alpha,\beta}{max}\ \theta_{D} (\alpha,\beta) = \underset{\alpha,\beta}{max}\ \underset{x}{min}\ L(x,\alpha,\beta)\\ s.t. \ \alpha_{i} \geqslant0,\ i = 1,2,...,k\tag{10}
问题10就是原始问题的对偶问题。定义对偶问题的最优解。
(11) d = m a x α , β : α i 0 θ D ( α , β ) d^{*} =\underset{\alpha,\beta:\alpha_{i}\geqslant0}{max}\theta_{D}(\alpha,\beta)\tag{11}

对偶问题和原始问题的关系

在某些情况下原始问题的解 p p^{*} 和对偶问题的解 d d^{*} 相同。

  • 考虑原始问题(1)和对偶问题(10)。假设函数 f ( x ) , c i ( x ) f(x),c_{i}(x) 是凸函数, h j ( x ) h_{j}(x) 是仿射函数1。并且假设不等式约束 c i c_{i} 是严格约束,即存在x,对于所有的i有 c i < 0 c_{i}<0 ,则存在 x , α , β x^{*},\alpha^{*},\beta^{*} ,使得 x i x^{i} 是原始问题的解, α , β \alpha^{*},\beta^{*} 是对偶问题的解。有:
    (12) p = d = L ( x , α , β ) p^{*} = d^{*} = L(x^{*},\alpha^{*},\beta^{*})\tag{12}
    如果 x i x^{i} 是原始问题的解, α , β \alpha^{*},\beta^{*} 是对偶问题的解,则 x , α , β x^{*},\alpha^{*},\beta^{*} 必须同时满足满足原始问题和对偶问题的约束,即KTT条件:
    (13) x L ( x , α , β ) = 0 α c i ( x ) = 0 ,   i = 1 , 2 , . . . , k c i ( x ) 0 ,   i = 1 , 2 , . . . , k a i 0 ,   i = 1 , 2 , . . . , k h j ( x ( ) ) = 0 ,   j = 1 , 2 , . . . , k \triangledown _{x}L(x^{*},\alpha^{*},\beta^{*}) = 0\\ {\color{Red} \alpha^{*}c_{i}(x^{*}) = 0,\ i=1,2,...,k}\\ c_{i}(x^{*})\leq0,\ i=1,2,...,k\\ a_{i}^{*} \geq0,\ i=1,2,...,k\\ h_{j}(x^(*)) = 0,\ j=1,2,...,k\tag{13}
    红色的公式称为KTT对偶互补条件。由此件可知:若 a i > 0 a_{i}^{*}>0 ,则有 c i ( x ) = 0 c_{i}(x^{*}) = 0

  1. https://blog.csdn.net/qq_20966795/article/details/86307097 ↩︎

猜你喜欢

转载自blog.csdn.net/qq_20966795/article/details/86310784