最优化计算方法

版权声明:如需转载请评论告知并标明出处 https://blog.csdn.net/ShuqiaoS/article/details/82732186

最优化计算方法

本文记录了博主在学习《最优化计算方法》时的总结,主要侧重于与深度学习相关的内容,更新于2018.09.17。
书目信息:《最优化计算方法》,黄正海等著,出版时间2015.02,科学出版社。

第1章 引论

最优化问题概述

最优化要解决的问题:在一定限制条件下使得所关心的指标达到最优。
最优化问题的基本数学模型:

min f ( x ) s . t . c i ( x ) 0 , i I := { 1 , 2 , , p } , c i ( x ) = 0 , i E := { p + 1 , p + 2 , , m }

其中 x R n 称为决策向量,函数 f : R n R 称为目标函数,函数 c i ( ) ( i I ) 称为不等式约束函数,函数 c i ( ) ( i E ) 称为等式约束函数,不等式 c i ( x ) 0 ( i I ) 称为不等式约束,方程 c i ( x ) = 0 ( i E ) 称为等式约束, I 称为不等式约束的指标集, E 称为等式约束的指标集。记:

F := { x R n | c i ( x ) 0 , i I = 1 , 2 , , p ; c i ( x ) = 0 , i E = p + 1 , p + 2 , , m }

F 为上述最优化问题的可行域, F 中的每个点 x 称为上述最优化问题的一个可行点。若 F = ,则称上述最优化问题不可行;否则,称问题是可行的。

因此,上述最优化问题就是在可行域 F 中找到一个点 x ,使其对应的 f ( x ) 的值不大于任何其他 F 中的点对应的目标函数值。

扫描二维码关注公众号,回复: 3632753 查看本文章

定义:假设可行域 F 由上式给出:
(i)若 x F ,且对所有的 x F 恒有 f ( x ) f ( x ) ,则称 x 为上述最优化问题的一个全局解;
(ii)若 x F ,且对所有的 x F /   x 恒有 f ( x ) < f ( x ) ,则称 x 为上述最优化问题的严格全局最优解;
(iii)若 x F ,且存在 x 的某个邻域

N ε ( x ) "= { x R n | x x < ε } ε

使得对所有的 x F N ε ( x ) 恒有 f ( x ) f ( x ) ,那么称 x 为上述最优化问题的一个局部最优解。
(iv)若 x F ,且存在 x 的某个邻域 N ε ( x ) ,使得对所有的 x F N ε ( x ) /   x 恒有 f ( x ) < f ( x ) ,那么称 x 为为上述最优化问题的一个严格局部最优解。

定义:对于上述最优化问题,称其最优解 x 对应的目标函数值 f ( x ) 为此优化问题的最优值。

最优解不一定存在,存在也不一定唯一,但如果存在最优解,那么最优值一定唯一。最优化问题也常被写成:

min { f ( x ) | c i ( x ) 0 , i I = 1 , 2 , , p ; c i ( x ) = 0 , i E = p + 1 , p + 2 , , m }

预备知识

约定向量取列向量形式,即 x R n 是指 x 具有如下形式:

x := ( x 1 , x 2 , ) T = ( x 1 x 2 x n )

对任意的 x , y R n ,常用的内积 x , y 定义为:

x , y := i = 1 n x i y i = x T y

常用的向量范数:
l 1 x 1 = i = 1 n | x i |
l 2 x 2 = x T x = i = 1 n x i 2
l x = max { | x i | | i { 1 , 2 , , n } }

一般地,对于 p [ 1 , ) l p 定义为:
x p = ( i = 1 n | x i | p ) 1 / p

各范数之间的关系有:
x x 2 x 1 n x

常用的矩阵范数
假设 A R n × n 是对称正定矩阵,那么向量的椭球范数 A 定义如下:

x A := x T A x , x R n

对于任意的 A = ( a i j ) n × n R n × n ,常用的矩阵范数是Frobenius范数,定义为:

A F := i = 1 n j = 1 n a i j 2 = T r ( A T A )

其中, T r ( A T A ) 表示矩阵 A T A 的迹,即 A T A 的所有主对角线元素之和,也等于 A T A 的所有特征值之和。

另一个常用的矩阵范数是由向量所诱导的矩阵范数,也称算子范数,定义为:

A := max x R n /   { 0 } A x x , A R n × n

其中, 是某种向量范数。
特别地,对于任意的 A R n × n ,有:
- 由向量 l 1 诱导的矩阵范数(列范数)为 A 1 = max { i = 1 n | a i j | | j { 1 , 2 , , n } }
- 由向量 l 诱导的矩阵范数(行范数)为 A = max { j = 1 n | a i j | | i { 1 , 2 , , n } }
- 由向量 l 2 诱导的矩阵范数(谱范数)为 A 2 = λ max ( A T A ) ,其中 λ max ( A T A ) 表示矩阵 A T A 的最大特征值。

矩阵范数满足相容性条件,常用的不等式有Cauchy-Schwarz不等式,广义Cauchy-Schwarz不等式,Young不等式,Holder不等式,Minkowski不等式。

函数的可微性
如果函数 f 是二阶连续可微,那么函数 f 在点 x 处的二阶导数组成的矩阵称为Hesse阵。
给定多变量向量值函数 F ,如果其在 x 处连续可微,那么函数 F 在点 x 处的一阶导数矩阵称为Jacobi矩阵。

凸集、凸函数、凸规划

凸集
给定非空集合 F R n 。如果对任意的 x , y F 以及任意的实数 α [ 0 , 1 ] 都有

α x + ( 1 + α ) y F

那么,称 F R n 中的一个凸集。若凸集 F 为开集,则称为开凸集;若凸集 F 为闭集,则称为闭凸集。

空集 通常被规定为凸集。

凸集分离定理
假设 F 1 , F 2 R n 为两个非空凸集。如果存在非零向量 w R n 和实数 t ,使得
(i)对任意的 x F 1 y F 2 ,都有 w T x t w T y t ,则称超平面 π := { x R n | w T x = t } 分离集合 F 1 F 2
(ii)对任意的 x F 1 y F 2 ,都有 w T x > t w T y < t ,则称超平面 π := { x R n | w T x = t } 严格分离集合 F 1 F 2

Farkas引理
A R m × n b R n ,考虑不等式组

A x 0 , b T x > 0

和等式不等式组
A T y = b , y 0

那么,上述两式有且仅一组有解。

猜你喜欢

转载自blog.csdn.net/ShuqiaoS/article/details/82732186