最优化计算方法
本文记录了博主在学习《最优化计算方法》时的总结,主要侧重于与深度学习相关的内容,更新于2018.09.17。
书目信息:《最优化计算方法》,黄正海等著,出版时间2015.02,科学出版社。
第1章 引论
最优化问题概述
最优化要解决的问题:在一定限制条件下使得所关心的指标达到最优。
最优化问题的基本数学模型:
mins.t.f(x)ci(x)≥0,∀i∈I:={1,2,⋅⋅⋅,p},ci(x)=0,∀i∈E:={p+1,p+2,⋅⋅⋅,m}
其中
x∈Rn
称为决策向量,函数
f:Rn→R
称为目标函数,函数
ci(⋅)(i∈I)
称为不等式约束函数,函数
ci(⋅)(i∈E)
称为等式约束函数,不等式
ci(x)≥0(i∈I)
称为不等式约束,方程
ci(x)=0(i∈E)
称为等式约束,
I
称为不等式约束的指标集,
E
称为等式约束的指标集。记:
F:={x∈Rn∣∣∣ci(x)≥0,∀i∈I=1,2,⋅⋅⋅,p;ci(x)=0,∀i∈E=p+1,p+2,⋅⋅⋅,m}
称
F
为上述最优化问题的可行域,
F
中的每个点
x
称为上述最优化问题的一个可行点。若
F=∅
,则称上述最优化问题不可行;否则,称问题是可行的。
因此,上述最优化问题就是在可行域
F
中找到一个点
x
,使其对应的
f(x)
的值不大于任何其他
F
中的点对应的目标函数值。
扫描二维码关注公众号,回复:
3632753 查看本文章
定义:假设可行域
F
由上式给出:
(i)若
x∗∈F
,且对所有的
x∈F
恒有
f(x∗)≤f(x)
,则称
x∗
为上述最优化问题的一个全局解;
(ii)若
x∗∈F
,且对所有的
x∈F/ x∗
恒有
f(x∗)<f(x)
,则称
x∗
为上述最优化问题的严格全局最优解;
(iii)若
x∗∈F
,且存在
x∗
的某个邻域
Nε(x∗)"={x∈Rn|∥x−x∗∥<ε},ε为正实数且∥⋅∥表示某种范数
使得对所有的
x∈F∩Nε(x∗)
恒有
f(x∗)≤f(x)
,那么称
x∗
为上述最优化问题的一个局部最优解。
(iv)若
x∗∈F
,且存在
x∗
的某个邻域
Nε(x∗)
,使得对所有的
x∈F∩Nε(x∗)/ x∗
恒有
f(x∗)<f(x)
,那么称
x∗
为为上述最优化问题的一个严格局部最优解。
定义:对于上述最优化问题,称其最优解
x∗
对应的目标函数值
f(x∗)
为此优化问题的最优值。
最优解不一定存在,存在也不一定唯一,但如果存在最优解,那么最优值一定唯一。最优化问题也常被写成:
min{f(x)∣∣∣ci(x)≥0,∀i∈I=1,2,⋅⋅⋅,p;ci(x)=0,∀i∈E=p+1,p+2,⋅⋅⋅,m}
预备知识
约定向量取列向量形式,即
x∈Rn
是指
x
具有如下形式:
x:=(x1,x2,⋅⋅⋅)T=⎛⎝⎜⎜⎜⎜⎜⎜⎜x1x2⋅⋅⋅xn⎞⎠⎟⎟⎟⎟⎟⎟⎟
对任意的
x,y∈Rn
,常用的内积
⟨x,y⟩
定义为:
⟨x,y⟩:=∑i=1nxiyi=xTy
常用的向量范数:
l1−范数
:
∥x∥1=∑ni=1|xi|
l2−范数
:
∥x∥2=xTx−−−√=∑ni=1x2i−−−−−−−√
l∞−范数
:
∥x∥∞=max{|xi||i∈{1,2,⋅⋅⋅,n}}
一般地,对于
p∈[1,∞)
,
lp−范数
定义为:
∥xp∥=(∑ni=1|xi|p)1/p
各范数之间的关系有:
∥x∥∞≤∥x∥2≤∥x∥1≤n∥x∥∞
常用的矩阵范数
假设
A∈Rn×n
是对称正定矩阵,那么向量的椭球范数
∥⋅∥A
定义如下:
∥x∥A:=xTAx−−−−−√,∀x∈Rn
对于任意的
A=(aij)n×n∈Rn×n
,常用的矩阵范数是Frobenius范数,定义为:
∥A∥F:=∑i=1n∑j=1na2ij−−−−−−−−⎷=Tr(ATA)−−−−−−−−√
其中,
Tr(ATA)
表示矩阵
ATA
的迹,即
ATA
的所有主对角线元素之和,也等于
ATA
的所有特征值之和。
另一个常用的矩阵范数是由向量所诱导的矩阵范数,也称算子范数,定义为:
∥A∥:=maxx∈Rn/ {0}∥Ax∥∥x∥,∀A∈Rn×n
其中,
∥⋅∥
是某种向量范数。
特别地,对于任意的
A∈Rn×n
,有:
- 由向量
l1−范数
诱导的矩阵范数(列范数)为
∥A∥1=max{∑ni=1|aij||j∈{1,2,⋅⋅⋅,n}}
- 由向量
l∞−范数
诱导的矩阵范数(行范数)为
∥A∥∞=max{∑nj=1|aij||i∈{1,2,⋅⋅⋅,n}}
- 由向量
l2−范数
诱导的矩阵范数(谱范数)为
∥A∥2=λmax(ATA)−−−−−−−−−√
,其中
λmax(ATA)
表示矩阵
ATA
的最大特征值。
矩阵范数满足相容性条件,常用的不等式有Cauchy-Schwarz不等式,广义Cauchy-Schwarz不等式,Young不等式,Holder不等式,Minkowski不等式。
函数的可微性
如果函数
f
是二阶连续可微,那么函数
f
在点
x
处的二阶导数组成的矩阵称为Hesse阵。
给定多变量向量值函数
F
,如果其在
x
处连续可微,那么函数
F
在点
x
处的一阶导数矩阵称为Jacobi矩阵。
凸集、凸函数、凸规划
凸集
给定非空集合
F⊆Rn
。如果对任意的
x,y∈F
以及任意的实数
α∈[0,1]
都有
αx+(1+α)y∈F
那么,称
F
为
Rn
中的一个凸集。若凸集
F
为开集,则称为开凸集;若凸集
F
为闭集,则称为闭凸集。
空集
∅
通常被规定为凸集。
凸集分离定理
假设
F1,F2⊆Rn
为两个非空凸集。如果存在非零向量
w∈Rn
和实数
t
,使得
(i)对任意的
x∈F1
和
y∈F2
,都有
wTx≥t
且
wTy≤t
,则称超平面
π:={x∈Rn|wTx=t}
分离集合
F1
和
F2
;
(ii)对任意的
x∈F1
和
y∈F2
,都有
wTx>t
且
wTy<t
,则称超平面
π:={x∈Rn|wTx=t}
严格分离集合
F1
和
F2
。
Farkas引理
设
A∈Rm×n
且
b∈Rn
,考虑不等式组
Ax≤0,bTx>0
和等式不等式组
ATy=b,y≥0
那么,上述两式有且仅一组有解。