等式约束的优化问题求解

基本概念

本文将讨论下类形状的优化问题

m i n i m i z e f (x) s u b j e c t t o h (x) = 0

$minimize\quad f(x)\\ subject\ to\quad h(x)=0$
其中

x \in R^{n}, f : R^{n} \to R, h : R^{n} \to R^{m}, h = [h_{1}, . . ., h_{m}]^{T}, m \leq n

$x\in R^{n},f:R^{n}\to R,h:R^{n}\to R^{m},h=[h_{1},...,h_{m}]^{T},m\le n$ ，假定函数

h

$h$ 连续可微，即

h \in C^{1}

$h\in C^{1}$ 。
下面介绍几个基本概念：

正则点：对于满足约束 $h_{1}(x^{*})=0,...,h_{m}(x^{*})=0$ 的点 $x^{*}$ ，如果梯度向量 $\nabla h_{1}(x^{*}),...,\nabla h_{m}(x^{*})$ 是线性无关的，则称 $x^{*}$ 是该约束的一个正则点。

切线空间：曲面 $S={x\in R^{n}:h(x)=0}$ 中点 $x^{*}$ 处的切线空间为集合 $T(x^{*})=\{ y:Dh(x^{*})y=0\}$ 。可以看出切线空间 $T(x^{*})$ 是矩阵 $Dh(x^{*})$ 的零空间，即 $T(x^{*})=N(Dh(x^{*}))$ 。

法线空间：曲面 $S={x\in R^{n}:h(x)=0}$ 中点 $x^{*}$ 处的法线空间为集合 $N(x^{*})=\{ x\in R^{n}:x=Dh(x^{*})^{T}z,z\in R^{m}\}$ 。可以看出法线空间 $N(x^{*})$ 是矩阵 $Dh(x^{*})$ 的零空间，即 $N(x^{*})=R(Dh(x^{*})^{T})$ 。

拉格朗日条件

首先考虑只包含两个决策变量和一个等式约束的优化问题。令 $h:R^{2}\to R$ 为约束函数，可知函数定义域中 $x$ 处的梯度 $\nabla h(x)$ 与通过该点的 $h(x)$ 水平集正交，选择点 $x^{*}=[x^{*}_{1},x^{*}_{1}]^{T}$ 使得 $h(x^{*})=0$ ，且 $\nabla h(x^{*})\neq 0$ ，经过点 $x^{*}$ 的水平集为集合 $\{ x:h(x)=0\}$ 。可利用曲线 $x(t)$ 在 $x^{*}$ 领域内进行参数化， $x(t)$ 是一个连续可微的向量函数 $h:R\to R^{2}$ ：

x (t) = [x_{1} (t), x_{1} (t)]^{T}, t \in (a, b), x^{*} = x (t^{*}), \dot{x} (t^{*}) \neq 0, t^{*} \in (a, b)

$x(t)=[x_{1}(t),x_{1}(t)]^{T},t\in (a,b),x^{*}=x(t^{*}),\dot{x}(t^{*})\neq 0,t^{*}\in (a,b)$
接下来可以证明，

\nabla h (x^{*})

$\nabla h(x^{*})$ 与

\dot{x} (t^{*})

$\dot{x}(t^{*})$ 正交。由于

h

$h$ 在曲线

{x (t) : t \in (a, b)}

$\{x(t):t\in (a,b)\}$ 上是常数0，即对于所有的

t \in (a, b)

$t\in (a,b)$ 都有

h (x (t)) = 0

$h(x(t))=0$
因此对于任意的

t \in (a, b)

$t\in(a,b)$ 都有

\frac{d}{d t} h (x (t)) = 0

$\frac{d}{dt}h(x(t))=0$
利用链式法则可以得到

\frac{d}{d t} h (x (t)) = \nabla h (x (t))^{T} \dot{x} (t) = 0

$\frac{d}{dt}h(x(t))=\nabla h(x(t))^{T}\dot{x}(t)=0$
因此

\nabla h (x^{*})

$\nabla h(x^{*})$ 和

\dot{x} (t^{*})

$\dot{x}(t^{*})$ 正交
当

x^{*}

$x^{*}$ 是

f : R \to R^{2}

$f:R\to R^{2}$ 在满足

h (x) = 0

$h(x)=0$ 上的极小点的时候，可以证明，

\nabla f (x^{*})

$\nabla f(x^{*})$ 与

\dot{x} (t^{*})

$\dot{x}(t^{*})$ 正交，构造关于

t

$t$ 的复合函数：

ϕ (t) = f (x (t))

$\phi(t)=f(x(t))$
当

t = t^{*}

$t=t^{*}$ 的时候取得极小值，根据无约束极值问题的一阶必要条件可知

\frac{d ϕ}{d t} (t^{*}) = 0

$\frac{d\phi}{dt}(t^{*})=0$
利用链式法则可以得到

\frac{d}{d t} ϕ (t^{*}) = \nabla f (x (t^{*}))^{T} \dot{x} (t^{*}) = \nabla f (x^{*})^{T} \dot{x} (t^{*}) = 0

$\frac{d}{dt}\phi(t^{*})=\nabla f(x(t^{*}))^{T}\dot{x}(t^{*})=\nabla f(x^{*})^{T}\dot{x}(t^{*})=0$
因此，

\nabla f (x^{*})

$\nabla f(x^{*})$ 和

\dot{x} (t^{*})

$\dot{x}(t^{*})$ 正交，上面已经证明

\nabla f (x^{*})

$\nabla f(x^{*})$ 与

\dot{x} (t^{*})

$\dot{x}(t^{*})$ 正交，那么向量

\nabla f (x^{*})

$\nabla f(x^{*})$ 和

\nabla h (x^{*})

$\nabla h(x^{*})$ 平行，那么可以得到这种情况下的拉格朗日定理：

n=2,m=3时的拉格朗日定理：设点 $x^{*}$ 是函数 $f:R^{2}\to R$ 的一个极小点，约束条件是 $h(x)=0,h:R^{2}\to R$ ,那么 $\nabla f(x^{*})$ 和 $\nabla h(x^{*})$ 平行，即如果 $\nabla h(x^{*})\neq 0$ ，则存在标量 $\lambda^{*}$ ，使得

\nabla f (x^{*}) + λ^{*} \nabla h (x^{*}) = 0

$\nabla f(x^{*})+\lambda^{*}\nabla h(x^{*})=0$
其中

λ^{*}

$\lambda^{*}$ 为拉格朗日乘子。
将这个定理推广到一般情况下，即

f : R^{n} \to R, h : R^{n} \to R^{m}, m \leq n

$f:R^{n}\to R,h:R^{n}\to R^{m},m\le n$ 的时候，可以得到：
拉格朗日定理：

x^{*}

$x^{*}$ 是

f : R^{n} \to R

$f:R^{n}\to R$ 的局部极小点（或极大点），约束条件为

h (x) = 0, h : R^{n} \to R^{m}, m \leq n

$h(x)=0,h:R^{n}\to R^{m},m\le n$ 。如果

x^{*}

$x^{*}$ 是正则点，那么存在

λ^{*} \in R^{m}

$\lambda^{*}\in R^{m}$ 使得

D f (x^{*}) + λ^{* T} D h (x^{*}) = 0

$D f(x^{*})+\lambda^{*T}D h(x^{*})=0$

二阶条件

二阶必要条件：设 $x^{*}$ 是 $f:R^{n}\to R$ 在约束条件 $h(x)=0,h:R^{n}\to R^{m},m\le n,f,h\in C^{2}$ 下的局部极小点。如果 $x^{*}$ 是正则点，那么存在 $\lambda^{*}\in R^{m}$ 使得

1. $D f(x^{*})+\lambda^{*T}D h(x^{*})=0^{T}$
2.对于所有的 $y\in T(x^{*})$ ，都有 $y^{T}L(x^{*},\lambda^{*})y\ge 0$

二阶充分条件：函数 $f,h\in C^{2}$ ，如果存在点 $x^{*}\in R^{n}$ 和 $\lambda^{*}\in R^{m}$ ，使得

1. $D f(x^{*})+\lambda^{*T}D h(x^{*})=0^{T}$
2.对于所有的 $y\in T(x^{*})$ ，都有 $y^{T}L(x^{*},\lambda^{*})y> 0$

那么 $x^{*}$ 是 $f$ 在约束条件 $h(x)=0$ 下的严格局部极小点

本文介绍了等式约束下的拉格朗日乘子法，后面还将会介绍不等式约束下的拉格朗日乘子法以及KKT条件等，To be continue…

[最优化]等式约束的优化问题求解

等式约束的优化问题求解

基本概念

拉格朗日条件

二阶条件

猜你喜欢