凸函数总结

定义

f:R^n\rightarrow R是凸的,如果dom f是凸集,且对于任意x,y\in dom f和任意0\leq \theta \leq 1,有

 f(\theta x+(1-\theta )y)\leq \theta f(x)+(1-\theta )f(y)

定理1 f在定义域内可微,下列条件等价

1.f是凸函数

2.对于任意x,y \in dom f,下式成立

f(y)-f(x)\geq \nabla f(x)^T(y-x)

3.函数g(t)=f(x+tv)是凸函数(其定义域为\left \{t | x+tv\in dom f \right \}

1\Leftrightarrow2

证明:

\Leftarrow

\theta f(x)+(1-\theta )f(y)-f(\theta x+(1-\theta )y)\newline =\theta [f(x)-f(\theta x+(1-\theta )y)]+(1-\theta )[f(y)-f(\theta x+(1-\theta )y)]\newline \geq \theta \nabla f(\theta x+(1-\theta )y)^T(1-\theta )(x-y)+(1-\theta )\nabla f(\theta x+(1-\theta )y)^T\theta (y-x)\newline =0

\Rightarrow

h=y-x,由凸函数的定义得

f(t(x+h)+(1-t)x)\leq tf(x+h)+(1-t)f(x)

f(x+th)-f(x)\leq t[f(x+h)-f(x)]

两边除以t

\frac{f(x+th)-f(x)}{th}h\leq f(x+h)-f(x)

t\rightarrow 0即得

\nabla f(x)^T(y-x)\leq f(y)-f(x)

2\Leftrightarrow3

\Leftarrow

g(t)=f(ty+(1-t)x),由于g(t)是凸函数,所以有

g(1)-g(0)\geq g^\prime(0)(1-0)

g(1)=f(y)\qquad g(0)=f(x) \qquad g^\prime(0)=\nablaf(ty+(1-t)x)^T(y-x) 即得

f(y)-f(x)\geq \nabla f(x)^T(y-x)

\Rightarrow

假设x,y,x',y'\in dom f,由于凸集的性质显然有

ty+(1-t)x\in dom f,t'y'+(1-t')x'\in dom f,0\leq t,t'\leq 1

由2得到

f(ty+(1-t)x)-f(t'y'+(1-t')x')\geq \nabla f(t'y'+(1-t')x')^T(y-x)(t-t')

g(t)-g(t')\geq g^\prime(t')(t-t'),所以g(t)是凸函数

定理2 函数f二阶可微,即对于凸集dom f内的任意一点,它的Hessian矩阵或者二阶导数\nabla^2f存在,则函数f是凸函数的充分必要条件是Hessian矩阵是半正定:即对于所有的x\in dom f,有:

\nabla^2f(x)\succeq 0

证明:

\Rightarrow

(反证)假设Hessian矩阵非半正定,则\exists x_0\in dom f,h=(h_1,h_2,...,h_n),s.t

(h_1,h_2,...,h_n)\nabla ^2f\begin{pmatrix} h_1\\ h_2\\ ...\\ h_n \end{pmatrix}< 0

根据Taylor公式,当\lambda \rightarrow 0时,有

f(x_0+\lambda h)=f(x_0)+ \nabla f(x_0)^T\lambda h+\frac{1}{2}(\lambda h)^T\nabla ^2f(x_0)(\lambda h)+o(\left \| \lambda h \right \|^2)\newline =f(x_0)+ \nabla f(x_0)^T\lambda h+\frac{1}{2} \lambda^2 h^T\nabla ^2f(x_0)h+o(\left \| \lambda h \right \|^2)\newline =f(x_0)+ \nabla f(x_0)^T\lambda h+\lambda^2 [\frac{1}{2} h^T\nabla ^2f(x_0)h+o(\left \| h \right \|^2)]\newline

\lambda ,\left \| h \right \|充分小,第三项小于0,所以有

f(x_0+\lambda h)< f(x_0)+ \nabla f(x_0)^T\lambda h

跟定理1的条件2相矛盾。

\Leftarrow

\forall x_0,x \in domf,根据Taylor公式,\exists \varepsilon =x_0+\theta (x-x_0)(0<\theta<1).s.t

f(x)=f(x_0)+ \nabla f(x_0)^T(x-x_0)+\frac{1}{2}(x-x_0)^T\nabla ^2f(\varepsilon )(x-x_0)\newline

\nabla ^2f(\varepsilon )半正定,故第三项非负,所以有

f(x)\geq f(x_0)+ \nabla f(x_0)^T(x-x_0)\newline

由定理1的条件2可知f在定义域内为凸函数。

推论1 f在定义域内可微,严格凸的充分必要条件是,对于任意x,y \in dom f,下式成立

f(y)-f(x)> \nabla f(x)^T(y-x)

对于(严格)凹函数的情况不等式的符号取反即可。

推论2 函数f二阶可微,即对于凸集dom f内的任意一点,它的Hessian矩阵或者二阶导数\nabla^2f存在,则函数f是严格凸函数的充分条件是Hessian矩阵是正定:即对于所有的x\in dom f,有:

\nabla^2f(x)\succ 0

对于(严格)凹函数的情况不等式的符号取反即可。

推论2的条件不是必要条件,例如f(x)=x^4是严格凸函数,但是不满足推论2的条件。

猜你喜欢

转载自blog.csdn.net/lbc3402785/article/details/81159028