Numerical optimization in robots (11) - Gauss-Newton method, LMF method, Dogleg method

   This series of articles is mainly about some of my notes and related thoughts in the process of studying "Numerical Optimization". The main learning materials are the course "Numerical Optimization in Robots" from Deep Blue Academy and "Numerical Optimization Method" edited by Gao Li, etc. , this series of articles has a large number and is updated from time to time. The first half introduces unconstrained optimization, and the second half introduces constrained optimization. Some application examples of path planning will be interspersed in the middle.




   15. Gauss-Newton method

   1. Least squares problem

   The least squares (LS) problem is defined as follows:

   min ⁡ f ( x ) = 1 2 ∑ i = 1 m r i 2 ( x ) = 1 2 r ( x ) T r ( x ) , x ˙ ∈ R n , m ⩾ n , \min f(x)=\dfrac{1}{2}\sum_{i=1}^{m}r_i^2(x)=\dfrac{1}{2}r(x)^{\mathrm T}r(x),\quad\dot x\in\mathbb R^n,m\geqslant n, minf(x)=21i=1mri2(x)=21r(x)Tr(x),x˙Rn,mn,

   这里 r ( x ) = ( r 1 ( x ) , r 2 ( x ) , ⋅ . . , r m ( x ) ) T r(x)=(r_1(x), r_2(x),· .. ,r_m(x))^T r(x)=(r1(x),r2(x)..,rm(x))T is called the residual function. The value of the residual function at point α is called the residual quantity. Ifri ( x ) ( i = l , . . . , m ) r_i(x)(i = l,... ,m)ri(x)(i=l,...,m ) are all linear functions, it is called a linear least squares problem; if there is at least oneri (x) r_i(x)ri( x ) is a nonlinear function, it is called a nonlinear least squares problem.

   Least squares problems arise largely from data fitting problems: given a set of experimental data (ti, yi) (i = 1,…, m) and a function model f(x; t), we need to determine x such that f (x; t) fits the given data as well as possible in the sense of the residual sum of squares, where the residual ri ( x ) r_i(x)ri( x ) is

   r i ( x ) = y i − f ~ ( x ; t i ) , i = 1 , ⋯   , m , r_i(x)=y_i-\tilde{f}(x;t_i),\quad i=1,\cdots,m, ri(x)=yif~(x;ti),i=1,,m ,
   thus obtaining the least squares problem. In addition, the least squares problem can also be used to solve nonlinear equations.

   r i ( x ) = 0 , i = 1 , ⋯   , m , r_i(x)=0,\quad i=1,\cdots,m, ri(x)=0,i=1,,m,

   When m=n, the system of equations is called a system of well-posed equations; when m>n, the system of equations is called a system of overdetermined equations.

   Of course, the least squares problem can be solved by the general unconstrained optimization method mentioned before. However, because the objective function of this problem has a special structure, we can use the structure of the problem to transform some of the methods that have been mentioned so that It is simpler or more efficient for least squares problems.
In addition, least squares problems can also be used to solve nonlinear equations.


   2. Classification of least squares problems

   Let's look at the form of the first and second derivatives of the objective function f(x) of the least squares problem. Let J(x) be the Jacobian matrix of r(x):

   J ( x ) = [ ∇ r 1 T ⋮ ∇ r m T ] ∈ R m × n , J(x)=\left[\begin{array}{c}\nabla r_1^{\mathrm{T}}\\ \vdots\\ \nabla r_m^{\mathrm{T}}\end{array}\right]\in\mathbb{R}^{m\times n}, J(x)= r1TrmT Rm×n,

   Then, the gradient and Hessian matrix of f(x) are:

   g ( x ) = ∑ i = 1 m r i ( x ) ∇ r i ( x ) = J ( x ) T r ( x ) , g(x)=\sum\limits_{i=1}^m r_i(x)\nabla r_i(x)=J(x)^\mathrm{T}r(x), g(x)=i=1mri(x)ri(x)=J(x)Tr(x),
   G ( x ) = ∑ i = 1 m ∇ r i ( x ) ∇ r i ( x ) T + ∑ i = 1 m r i ( x ) ∇ 2 r i ( x ) = J ( x ) T J ( x ) + S ( x ) , \begin{aligned}G(x)&=\sum\limits_{i=1}^m\nabla r_i(x)\nabla r_i(x)^{\mathrm{T}}+\sum\limits_{i=1}^m r_i(x)\nabla^2r_i(x)\\ &=J(x)^{\mathrm{T}}J(x)+S(x),\end{aligned} G(x)=i=1mri(x)ri(x)T+i=1mri(x)2ri(x)=J(x)TJ(x)+S(x),

   其中:

   S ( x ) = ∑ i = 1 m r i ( x ) ∇ 2 r i ( x ) . S(x)=\sum\limits_{i=1}^m r_i(x)\nabla^2r_i(x). S(x)=i=1mri(x)2ri(x).

   为方便描述,我们对上述符号进行如下的简记:

   J ⋆ = J ( x ⋆ ) , J k = J ( x k ) , S ⋆ = S ( x ⋆ ) , S k = S ( x k ) . \begin{array}{c}J^{\star}=J(x^{\star}),\quad J_k=J(x_k),\\ \\ S^{\star}=S(x^{\star}),\quad S_k=S(x_k).\end{array} J=J(x),Jk=J(xk),S=S(x),Sk=S(xk).


   在点x * 处,||S * || 的大小取决于剩余量与问题的非线性性.对零剩余或线性最小二乘问题||S * || = 0 . 随着剩余量的增大或 r i ( x ) ( i = l , . . . , m ) r_i(x)(i = l,... ,m) ri(x)(i=l,...,m)的非线性的增强,||S * ||的值变大.根据问题的这种特点,我们的算法将分为小剩余算法与大剩余算法.小剩余算法处理||S * ||为零或不太大的问题,大剩余算法处理||S * ||较大的问题.


   3、牛顿方法解最小二乘问题

   解最小二乘问题的Newton方程为

   ( J k T J k + S k ) d k = − J k T r k (J_k^\mathrm{T}J_k+S_k)d_k=-J_k^\mathrm{T}r_{k} (JkTJk+Sk)dk=JkTrk

   对最小二乘问题,Newton方法的缺点是每次迭代都要求 S k S_k Sk,即计算m个nxn对称矩阵.显然,对一个算法而言, S k S_k Sk的计算是一个沉重的负担.解决这个问题的方法是或者在Newton方程中忽略 S k S_k Sk,或者用一阶导数信息近似 S k S_k Sk.而要忽略 S k S_k Sk,则应在 r i ( x ) r_i(x) ri(x)接近于0或接近于线性时进行,即下面我们要讲的小剩余算法。


   4、高斯牛顿法

   在方程 ( J k T J k + S k ) d k = − J k T r k (J_k^\mathrm{T}J_k+S_k)d_k=-J_k^\mathrm{T}r_{k} (JkTJk+Sk)dk=JkTrk中忽略 S k S_k Sk就可以得到Gauss-Newton (GN)方法,该方法以也可以理解为在点 x k x_k xk处,线性化剩余函数 r i ( x k + d ) , r_{i}(x_{k}+d), ri(xk+d),,线性化后 S k S_k Sk的值即为0。

   忽略 S k S_k Sk后得到的Gauss-Newton (GN)方程如下:

   J k T J k d = − J k T r k . J_k^\mathrm{T}J_k d=-J_k^\mathrm{T}r_k. JkTJkd=JkTrk.

   上述方程的解等价于求下述关于d的线性最小二乘问题的极小值问题。

   min ⁡ d ∈ R n q k ( d ) = 1 2 ∥ J k d + r k ∥ 2 2 , \min\limits_{d\in\mathbb{R}^n}q_k(d)=\dfrac{1}{2}\|J_k d+r_k\|_2^2, dRnminqk(d)=21Jkd+rk22,

   其中:
   q k ( d ) = 1 2 ( J k d + r k ) T ( J k d + r k ) = 1 2 d T J k T J k d + d T ( J k T r k ) + 1 2 r k T r k . \begin{aligned}q_k(d)&=\frac{1}{2}(J_k d+r_k)^{\mathrm{T}}(J_k d+r_k)\\ &=\frac{1}{2}d^{\mathrm{T}}J_k^{\mathrm{T}}J_k d+d^{\mathrm{T}}(J_k^{\mathrm{T}}r_k)+\frac{1}{2}r_k^{\mathrm{T}}r_k.\end{aligned} qk(d)=21(Jkd+rk)T(Jkd+rk)=21dTJkTJkd+dT(JkTrk)+21rkTrk.

   这里 q k ( d ) q_k(d) qk(d)是对 f ( x k + d ) f(x_k+d) f(xk+d)的一种二次近似,它与 f ( x k + d ) f(x_k+d) f(xk+d)的二次Taylor近似的差别在于二次项中少了 S k S_k Sk


   用Gauss-Newton方法求解最小二乘问题的算法如下:

在这里插入图片描述


   基本Gauss-Newton方法是指 α k α_k αk = 1的 Gauss-Newton方法,带线搜索的 Gauss-Newton方法称为阻尼 Gauss-Newton方法.

   Gauss-Newton方法的优点在于它无须计算r(z)的二阶导数. 另外,当 J k J_k Jk满秩, g k g_k gk不为零的时候,可以保证 d k d_k dk是下降方向。


   基本Gauss-Newton方法有如下两种情形的收敛速度:

·    (1)二阶收敛速度:若||S(x*)||= 0,即在零剩余问题或是线性最小二乘问题的情形,则方法在x * 附近具有Newton方法的收敛速度。

   (2)线性收敛速度:若||S(x*)||≠0,则方法的收敛速度是线性的。收敛速度随||S(x*)||的增大而变慢.

   由此可见,基本Gauss-Newton方法的收敛速度是与x*处剩余量的大小及剩余函数的线性程度有关的,即剩余量越小或剩余函数越接近线性,它的收敛速度就越快;反之就越慢,甚至对剩余量很大或剩余函数的非线性程度很强的问题不收敛。

   此外,高斯牛顿法要求矩阵J(x)列满秩.如若不然,则矩阵 J ( x ) T J ( x ) J(x)^{\mathrm{T}}J(x) J(x)TJ(x)奇异,我们不能从Gauss-Newton方程求得 d k d_k dk


   十六、LMF方法

   Gauss-Newton方法在迭代中会出现 J k T J k J_k^\mathrm{T}J_k JkTJk为奇异的情形.为了克服这个困难,Levenberg在 1944年提出由下面的方程求解 d k d_k dk,其中 v k ≥ 0 v_k ≥ 0 vk0。这个方法由于1964年时Marquardt的努力而得到广泛应用,故称为LM (Levenberg-Marquardt)方法,下式称为LM方程.

   ( J k T J k + ν k I ) d = − J k T r k (J_k^\mathrm{T}J_k+\nu_kI)d=-J_k^\mathrm{T}r_k (JkTJk+νkI)d=JkTrk

   在上述方程中,对任意 v k ≥ 0 v_k ≥ 0 vk0 J k T J k + ν k I J_k^\mathrm{T}J_k+\nu_kI JkTJk+νkI正定。从计算的角度出发,为保证该矩阵充分正定, v k v_k vk可能需要取得适当的大, J k T J k + ν k I J_k^\mathrm{T}J_k+\nu_kI JkTJk+νkI的正定性保证了由上述方程得到的方向是下降方向。

   LM 方法是一种信赖域型方法, v k v_k vk的值可以用信赖域方法的思想在迭代中修正得到,前文中我们介绍过信赖域方法中信赖域半径是如何修正的,现在只要找出 LM 方程与信赖域问题的关系,就可以根据修正信赖域半径的方法修正 v k v_k vk的值。

   LM方程与信赖域问题的关系:

   min ⁡ d 1 2 ∥ J k d + r k ∥ 2 , \min\limits_d\dfrac12\|J_k d+r_k\|^2, dmin21Jkd+rk2,
   s.t.   ∥ d ∥ 2 ⩽ Δ k 2 ,   Δ k > 0 \text{s.t.}~~\|d\|^2\leqslant\Delta^2_k,~\Delta_k>0 s.t.  d2Δk2, Δk>0

   上式为信赖域子问题, d k d_k dk其全局极小解的充分必要条件是,对满足上式的的 d k d_k dk,存在 v k ≥ 0 v_k≥0 vk0,使得

   ( J k T J k + ν k I ) d k = − J k T r k ˉ , ν k ( Δ k 2 − ∥ d k ∥ 2 ) = 0. \begin{array}{l}(J_{k}^{\mathrm T}J_{k}+\nu_{k}I)d_{k}=-J_{k}^{\mathrm T}r_{\bar k},\\ \nu_{k}(\Delta_{k}^{2}-\|d_{k}\|^{2})=0.\end{array} (JkTJk+νkI)dk=JkTrkˉ,νk(Δk2dk2)=0.


   LM 方程与信赖域问题的关系是 Fletcher在1981年提出的.故由此建立起来的方法称为LMF (Levenberg-Marquardt-Fletcher)方法.

   下面我们来考虑 v k v_k vk的修正方法,它与信赖域半径△k的修正是相关的.在信赖域方法中,从 x k x_k xk x k + d k x_k+ d_k xk+dk , f(x)的实际减少量为

   Δ f k = f ( x k ) − f ( x k + d k ) , \Delta f_k=f(x_k)-f(x_k+d_k), Δfk=f(xk)f(xk+dk),

   上文给出的近似函数
   q k ( d ) = 1 2 ( J k d + r k ) T ( J k d + r k ) = 1 2 d T J k T J k d + d T ( J k T r k ) + 1 2 r k T r k . \begin{aligned}q_k(d)&=\frac{1}{2}(J_k d+r_k)^{\mathrm{T}}(J_k d+r_k)\\ &=\frac{1}{2}d^{\mathrm{T}}J_k^{\mathrm{T}}J_k d+d^{\mathrm{T}}(J_k^{\mathrm{T}}r_k)+\frac{1}{2}r_k^{\mathrm{T}}r_k.\end{aligned} qk(d)=21(Jkd+rk)T(Jkd+rk)=21dTJkTJkd+dT(JkTrk)+21rkTrk.

   的减少量为:

   Δ q k = q k ( 0 ) − q k ( d k ) , \Delta q_k=q_k(0)-q_k(d_k), Δqk=qk(0)qk(dk),

   其中 q k ( 0 ) = f k q_{k}(0)=f_{k} qk(0)=fk,另外,由LM方程与 d k T g k < 0 d_{k}^{\mathrm{T}}g_{k}<0 dkTgk<0

   Δ g k = g k ( 0 ) − g k ( d k ) = − 1 2 d k T J k T J k d k − d k T ( J k T r k ) = 1 2 d k T ( − J k T J k d k − ν k d k + ν k d k − 2 J k T r k ) = 1 2 d k T ( − ( J k T J k + ν k ) d k + ν k d k − 2 J k T r k ) = 1 2 d k T ( v k d k − g k ) > 0 , \begin{aligned}\Delta g_k&=g_k(0)-g_k(d_k)\\ &=-\frac{1}{2}d_k^{T}J_k^{T}J_k d_k-d_k^{T}(J_k^{T}r_k)\\ &=\frac{1}{2}d_k^{T}(-J_k^{T}J_k d_k-\nu_k d_k+\nu_k d_k-2J_k^{T}r_k)\\ &=\frac{1}{2}d_k^{T}(-(J_k^{T}J_k+\nu_k)d_k+\nu_k d_k-2J_k^{T}r_k)\\ &=\frac{1}{2}d_k^{T}(v_k d_k-g_k)>0,\end{aligned} Δgk=gk(0)gk(dk)=21dkTJkTJkdkdkT(JkTrk)=21dkT(JkTJkdkνkdk+νkdk2JkTrk)=21dkT((JkTJk+νk)dk+νkdk2JkTrk)=21dkT(vkdkgk)>0,

   其中 g k = J k T r k . g_k=J_k^{\mathrm{T}}r_k. gk=JkTrk.

   进行如下定义:

   γ k = Δ f k Δ q k . \gamma_k=\dfrac{\Delta f_k}{\Delta q_k}. γk=ΔqkΔfk.

   在第k步迭代, γ k \gamma_{k} γk的值可以反映出 q k ( d k ) q_k(d_k) qk(dk)近似f(.zck + dk)的好坏.关于yxe的值如何反映 q(d)近似 f ( x k + d k ) f(x_{k}+d_{k}) f(xk+dk)的好坏,以及如何由此修正△k的问题。

   由LM 方程知, v k v_{k} vk可以控制 ∣ ∣ d k ∣ ∣ ||d_k|| ∣∣dk∣∣的大小,从而可以控制信赖域的大小.若 v k v_{k} vk变大的话, ∣ ∣ d k ∣ ∣ ||d_k|| ∣∣dk∣∣会变小,反之亦然,所以对, v k v_{k} vk大小的修正,应该与信赖域方法中对△k大小的修正相反。

   下面给出 LMF方法的步骤:

在这里插入图片描述

   上述算法中 v 0 v_{0} v0 >0可以任取. Fletcher指出该算法对0.25、0.75等常数并不敏感。LMF方法可以用于求解一般无约束最优化问题。在修正Newton方法中,我们曾经提到过这个方法。修正Newton方程与信赖域问题的关系如下:

在这里插入图片描述

  
  


   十七、Dogleg方法

   Dogleg方法是一种非线性最小化的数值优化方法,用于寻找函数的最小值。它的基本思想是将当前迭代点处的函数模型分为两部分:一部分是线性模型,另一部分是二次模型。在每次迭代中,该方法会将搜索方向限制在两个较小的半径内,以保证在可接受误差范围内找到局部极小值。

   具体来说,Dogleg方法的实现分为以下几步:

   构建当前迭代点处的函数模型,并计算其梯度和Hessian矩阵;

   计算当前迭代点处的两个半径:一是当函数模型为线性时的半径,另一个是当函数模型为二次时的半径;

   计算在两个半径内的最优搜索方向。当搜索方向在线性半径内时,直接沿着负梯度方向进行搜索;当搜索方向在二次半径内时,计算二次模型的极小值点,并将搜索方向设置为连接当前迭代点和极小值点的线段;

   如果最优搜索方向在线性半径内,直接更新迭代点;如果最优搜索方向在二次半径内,则需要计算更新点,以确保搜索方向在两个半径之间。

   与其他优化方法相比,Dogleg方法具有收敛速度快和收敛精度高的优点。但它也存在一些缺点,例如无法处理约束条件等。在实际应用中,需要根据具体问题选择合适的优化方法。


   算法流程如下所示:

在这里插入图片描述

   其中, Gauss-Newton方向 d k G N d^{GN}_k dkGN由Gauss-Newton方程给出, d k S D = − J k T r k d^{SD}_k=-J_{k}^{\mathrm{T}}r_{k} dkSD=JkTrk,最速下降方法的步长为:

   α k = arg ⁡ min ⁡ q k ( α d k S D ) = ∥ d k S D ∥ 2 ∥ J k d k S D ∥ 2 , \alpha_k=\arg\min q_k(\alpha d_k^{\mathrm{SD}})=\frac{\|d_k^{\mathrm{SD}}\|^2}{\|J_k d_k^{\mathrm{SD}}\|^2}, αk=argminqk(αdkSD)=JkdkSD2dkSD2,

   其中:
   q k ( α d k S D ) ≜ 1 2 ∥ α J k d k S D + r k ∥ 2 = 1 2 ∥ J k d k S D ∥ 2 α 2 − ∥ d k S D ∥ 2 α + f k . q_{k}(\alpha d_{k}^{\mathrm{SD}})\triangleq\frac{1}{2}\|\alpha J_{k}d_{k}^{\mathrm{SD}}+r_{k}\|^{2}=\frac{1}{2}\|J_{k}d_{k}^{\mathrm{SD}}\|^{2}\alpha^{2}-\|d_{k}^{\mathrm{SD}}\|^{2}\alpha+f_{k}. qk(αdkSD)21αJkdkSD+rk2=21JkdkSD2α2dkSD2α+fk.



   参考资料:

   1、数值最优化方法(高立 编著)

   2、机器人中的数值优化



Guess you like

Origin blog.csdn.net/qq_44339029/article/details/129815006