定义
之前提到的梯度下降法,牛顿法都是在定义域全集上寻找函数
的最大值或者最小值,但有时候,我们希望的不是全集,而是在
的某个子集
中找到
的最大值或者最小值。这称为约束优化(constrained optimization)。 在优化术语中,集合
内的点
称为可行(feasible)点
.例如我们常常希望找到在某种意义上小的解,针对这种情况下的常见方法就是强加一个范数约束(norm constraint), 如
.
简单方法:映射-修改
约束优化的一个简单方法是将约束考虑在内后简单地对梯度下降进行修改。
- 如果使用一个小的恒定步长 , 我们可以先取梯度下降的单步结果,然后将结果投影回 .
- 如果使用线性搜索,我们只能在步长为 范围内搜索可行的 点, 或者可以将线上的每个点投影到约束区域。
- 如果可能,在梯度下降或线性搜索前将梯度投影到可行域的切空间会更高效
复杂方法 : 转化为无约束优化问题
一种更复杂的方法是设计一个不同的、无约束的优化问题,其解可以转化为原始约束优化问题的解。例如,我们要在 中最小化 , 其中 约束为具有单位 范数。我们就可以构造关于 最小化 , 最后返回 作为原问题的解。
这种方法需要创造性;优化问题之间的转换必须专门根据我们遇到的每一个情况进行设计。
通用解决方案 – KKT 方法
Karush-Kuhn-Tucker(KKT)方法
是针对约束优化非常通用的解决方案,形式上它是 只允许等式约束的Lagrange乘子法
的推广。为使用 KKT 方法,我们需要先引入一个新函数 广义Lagrange函数(generalized Lagrange function)
.
为了定义 广义Lagrange函数, 我们先要通过等式和不等式的形式描述 。 我们希望通过 个函数 和 个函数 来描述 , 那么 可以表示为
- 涉及
的等式称为
等式约束(equality constraint)
- 涉及
的不等式称为
不等式约束(inequality constraint)
我们为每个约束引入新的变量
和
, 这些新变量称KKT乘子
。广义Lagrange函数可以定义为
只要存在至少一个可行点且 不允许取 , 那么以下左右两个函数具有相同的最优目标函数和最优点集
这是因为当约束满足时,
我们可以使用一组简单的性质来描述约束优化问题的最优点。这些性质称为 KKT条件
。这些事确定一个点事最优点的必要条件,但不一定是充分条件。这些条件是:
- 广义Lagrange函数的梯度为零
- 所有关于 和 KKT 乘子的约束都满足
- 不等式约束显示的互补松弛性: