凸优化第三章凸函数 3.1基本性质和例子

3.1基本性质和例子

  1. 定义
  2. 扩展值延伸
  3. 一阶条件
  4. 二阶条件
  5. 例子
  6. 下水平集
  7. 上境图
  8. Jensen不等式及其扩展
  9. 不等式

定义

函数f是凸函数,当f的定义域S是凸集,且\forall x_1,x_2\in S,\forall \theta\in [0,1],f(\theta x_1+(1-\theta)x_2)\leq \theta f(x_1)+(1-\theta)f(x_2)

严格凸函数:\forall x_1,x_2\in S,\forall \theta\in (0,1),f(\theta x_1+(1-\theta)x_2) < \theta f(x_1)+(1-\theta)f(x_2)

从几何上来看,如下图,函数f上的任意两点之间的弦都在函数图像之上。

凸函数

函数f是凸函数,当且仅当在与函数f的定义域S相交的任何直线上,f均是凸的。

f:R^n\rightarrow R,g:R\rightarrow R,g(t)=f(x+tv),dom(g)=\left\{t|x+tv\in dom(f)\right\}),\forall x\in dom(f),v\in R^n

利用此性质,可以将函数限制在直线上判断其凹凸性。

扩展值延伸

扩展值延伸,其实就是对函数f的扩展,对那些不属于dom(f)的点y,定义f(y)=\infty

如果f是凸函数,定义其扩展值延伸\bar{f}:R^n \rightarrow R\cup \left\{ \infty \right\},如:

\bar{f}(x)=\left\{\begin{matrix} f(x) & x\in dom(f)\\ \infty & x\notin dom(f) \end{matrix}\right.

显然如果f(x)是凸函数,\bar{f}(x)也是凸函数。

一阶条件

判断函数f是凸函数的方法之一是看其是否满足一阶条件。

可微:如果函数f可微表示f的梯度在开集dom(f)处处存在。

一阶条件:如果f可微,则函数f是凸函数的充要条件是dom(f)是凸集且\forall x,y\in dom(f),下式成立:

f(y)\geqslant f(x)+\bigtriangledown f(x)^T(y-x)

一阶条件的证明:

(1)证明函数f是凸函数\Rightarrow一阶条件

函数f是凸函数,\forall x,y\in dom(f),\forall \thtea \in [0,1],f(\theta x+(1-\theta)y)\leq \theta f(x)+(1-\theta)f(y)

t\in (0,1],x+t(y-x)\in dom(f)

f(x+t(y-x))=f(ty+(1-t)x)=f(x)+t\bigtriangledown^T f(x)(y-x)+o(t(y-x))

上式是泰勒展开,o(t(y-x))表示t(y-x)的高阶无穷小。

f(x)+t\bigtriangledown^T f(x)(y-x)+o(t(y-x)) \leq tf(y)+(1-t)f(x)

t\bigtriangledown^T f(x)(y-x)+o(t(y-x)) \leq tf(y)-tf(x)

等式两边同时除以t,得到:

\bigtriangledown f(x)^T(y-x)+\frac{o(t(y-x))}{t} \leq f(y)-f(x)

\Rightarrow f(y)\geq \bigtriangledown^T f(x)(y-x)+\frac{o(t(y-x))}{t} +f(x)

t\rightarrow 0,此时

\frac{o(t(y-x))}{t} \rightarrow 0

\Rightarrow f(y)\geq \bigtriangledown^T f(x)(y-x) +f(x)

(2)函数f满足一阶条件\Rightarrow函数是凸函数

\forall x,y\in dom(f),z=tx+(1-t)y,t\in(0,1],根据一阶条件知

f(x)\geq f(z)+\bigtriangledown^T f(z)(x-z) \, \, \, \, (1)

f(y)\geq f(z)+\bigtriangledown^T f(z)(y-z)\, \, \,\, (2)

t(1)+(1-t)(2):

tf(x)+(1-t)f(y)\geq (t+1-t)f(z)+t\bigtriangledown^T f(z)(x-z)+(1-t)\bigtriangledown^T f(z)(y-z)

不等式右边:

=f(z)+\bigtriangledown^T f(z)(tx-tz+(1-t)y-(1-t)z)=f(z)+\bigtriangledown^T f(z)(tx+(1-t)y-z)=f(z)=f(tx+(1-t)y)

\Rightarrow f(tx+(1-t)y)\leq tf(x)+(1-t)f(y)

二阶条件

二阶可微,即对于开集dom(f)的任意一点,它的海瑟矩阵或者二阶导数存在。

二阶条件:函数f 是凸函数的充要条件是:\forall x\in dom(f),\bigtriangledown^2f(x)\succeq 0

例子

二次函数:f(x)=\frac{1}{2}x^TPx+q^Tx+r,\bigtriangledown f(x)=Px+q,\bigtriangledown^2f(x)=P,P\succeq 0时,函数为凸函数。

最小二乘目标:f(x)=\left \| Ax-b \right \|^2_2,\bigtriangledown f(x)=2A^T(Ax-b),\bigtriangledown^2f(x)=2A^TA,无论A是什么f(x)都是凸函数。

二次线性分式:f(x,y)=x^2/y,\bigtriangledown f(x,y)=\bigl(\begin{smallmatrix} 2x/y ,& -x^2/y^2 \end{smallmatrix}\bigr)

\bigtriangledown^2f(x,y)=\begin{pmatrix} 2/y & -2x/y^2\\ -2x/y^2& 2x^2/y^3 \end{pmatrix}=2/y^3\begin{pmatrix} y\\-x \end{pmatrix}\begin{pmatrix} y\\-x \end{pmatrix}^T,\bigtriangledown^2f(x,y)\geq 0\Rightarrow y>0此时是凸函数。

指数和的对数:f(x)=log\sum_{k=1}^ne^{x_k},\bigtriangledown^2f(x)= \frac{1}{(1^Tz)^2}((1^Tz)diag(z)-zz^T),z=(e^{x_1},e^{x_2}\cdots e^{x_n})

为证f为凸函数,我们证明对任意v,v^T\bigtriangledown^2f(x)v\geqslant 0,即

v^T\bigtriangledown^2f(x)v=\frac{1}{(1^Tz)^2}((1^Tz)v^Tdiag(z)v-v^Tzz^Tv)

=\frac{1}{(1^Tz)^2}((1^Tz)v^Tdiag(z)v-v^Tzz^Tv)

=\frac{1}{(1^Tz)^2}\left\{(\sum _{i=1}^nz_i)(\sum_{i=1}^nv_i^2z_i)-(\sum_{i=1}^n v_i z_i)^2\right\}\geq 0

根据Cauchy-Schwarz不等式(a^Ta)(b^Tb)\geq (a^Tb)^2,这里a_i=v_i\sqrt{z_i},b_i=\sqrt{z_i},是凸函数。

几何平均:f(x)=(\prod_{k=1}^nx_k)^{1/n}是凹函数。

下水平集

函数f的\alpha下水平集:R^n\rightarrow R

C_\alpha =\left \{ x\in dom(f)|f(x)\leq \alpha \right \}

对于任意的\alpha,凸函数的下水平集仍为凸的。

上境图

函数f的图像:

\left \{ (x,f(x))|x\in dom(f) \right \}

函数f的上境图:R^n\rightarrow R

epi\, =\left \{(x,t)|x\in dom(f),f(x)\leq t \right \}

几何上函数f的上境图即为f的函数图像的上部。如下图:

上境图

凸集和凸函数的联系则可以通过上境图来建立,一个函数是凸函数,当且仅当其上境图是凸集。

Jensen不等式

凸函数f的基本不等式:\forall x,y\in dom(f) f(\theta x+(1-\theta)y)\leq \theta f(x)+(1-\theta)f(y),也称此式为Jensen不等式。

将其扩展成多个点的不等式,

\forall x_i \in dom(f),i=1,2\cdots n,\forall \theta_i\in [0,1],i=1,2\cdots n,\sum_{i=1}^n \theta_i=1 \, \, \, (3)

f(\sum_{i=1}^n \theta_i x_i)\leq \sum_{i=1}^n \theta_i f(x_i)\sqrt{ab}\leq (a+b)/2

可以将\theta_i看成x_i出现的概率,记z为随机变量取值为x_i,不等式(3)可以写成离散型随机变量期望的形式:

f(E[z])\leq E[f(z)]

如果不等式(3),取无穷多个点,则不等式(3)可以写成连续型随机变量期望的形式,跟上式一样。

上述所以不等式都被称为Jensen不等式。

不等式

用凸函数和Jensen不等式证明许多著名的不等式

\sqrt{ab}\leq (a+b)/2

证明:

取凸函数-log(x),令\theta=1/2,利用Jensen不等式,可知:

-log((a+b)/2)\leq \frac{-log(a)-log(b)}{2}

对两边同时去指数得到

e^{-log((a+b)/2)}\leq e^{\frac{-log(a)-log(b)}{2}}

\Rightarrow e^{log(2/(a+b))}\leq e^{-log(a)/2}e^{-log(b)/2}

\Rightarrow e^{log(2/(a+b))}\leq e^{log(a)^{-1/2}}e^{log(b)^{-1/2}}

\Rightarrow (2/(a+b))\leq (a)^{-1/2}}(b)^{-1/2}

\Rightarrow \frac{2}{a+b}\leq \frac{1}{\sqrt{a}}\frac{1}{\sqrt{b}}

\Rightarrow \sqrt{ab}\leq (a+b)/2

猜你喜欢

转载自blog.csdn.net/wangchy29/article/details/86499918