维普资讯 http://www.cqvip.com
第16卷第5期 运 筹 与 管 理 0PERAT10NS RESEARCH AND MANAGEMENT SCIENCE Vo1.16.No.5 Oct.2007 2007年1O月 解决大规模信赖域子问题的一种新算法 吕立波 (中国科学技术大学数学系,安徽合肥230026) 摘要:信赖域方法是解决无约束优化问题的一类有效的方法,而求解信赖域子问题又是信赖域方法的一个重 要的组成部分。在本文中,我们首先介绍Hager[.3的序列子空间方法,并分析了对于不同的子空间序列,该算法 所具有的性质。随后我们在以上分析的启发下,给出ssM算法的一种改进算法,改进后的算法不仅是全局收敛 的,而且进一步减少了矩阵运算量。最后我们给出一些初步的数值试验报告。 关键词:非线性优化;信赖域子问题;序列子空间方法;全局收敛 中图分类号:0224 文章标识码:A 文章编号:1007—3221(2007)05—0048—05 A New Algorithm for Solving Large Scale Trust Region Subproblem LU Li—bo (Dept of Math,Univ.of Sci.and Tech.of China.Hefei 230026,China) Abstract.Solving trust region subproblem is an important component of the algorithm based on trust re- gion method,which has been shown tO be very effective for unconstrained optimization problems.In this paper,we introduce the Sequential Subspace Method(SSM)of Hagerat first.Then we analyze the re- suits of the methods based on an alternative choice of the subspaces.Inspired by above analysis,fl modi— fication of the SSM is given,which not only provides the global convergence,but decreases the number of matrix-vector products.Finally,we show some numerical results with comparison. Key words:nonlinear optimization;trust region subproblem;sequential subspaee method;global conver- gence 0引言 将光滑多变量函数极小化是各类数学模型中经常出现的问题。信赖域算法是解决此类最优化问题的 一种有效的迭代算法。在每一步迭代中,我们都要求解一个信赖域子问题 min 1 ( )=去 ∈ +g (1) S.t. 1l ll≤△ 其中,对称矩阵BER 是对函数,( )的Hesse阵的逼进,gER”是函数,( )的梯度,Il II三l l△>O是信赖域边界。我们通常称该问题为信赖域子问题。 2, 对于中小规模问题(1),Gay 以及Mor6和Sorensen[ 已经给出了非常有效的算法。他们的算法需 要对B进行Cholesky分解,所以对于大规模问题而言,他们算法所需要的计算量将非常庞大。Gould, Lucidi,Roma,Roma和Toint 。 选择在对B进行Cholesky分解之前,利用LanezOS方法将B三对角化。 收稿日期:2004—10-24 作者简介:吕A ̄(1982一),男,浙江宁波人,硕士研究生,主要从事最优化理论与算法研究。 维普资讯 http://www.cqvip.com
第5期 吕立波:解决大规模信赖域子问题的一种新算法 49 这种技巧降低了Cholesky分解的运算量,但是当B是退化矩阵时,他们没有给出相应的算法分析。Ro— jas,Santos和SorensenL9]以及Rendl和Wolkwicz ]贝4将信赖域子问题转化成一个参数特征值问题。他 们的算法能够处理退化的B,但是试验表明当问题规模较大时,算法所需要的存储空间和运算规模非常庞 大。 为了解决算法执行过程中运算规模过大的问题,Hager[ 对信赖域子问题增加了一个子空间序列 {St)作为新的约束条件,并以这个子问题序列的解为基础建立对问题(1)的SSM算法。以下,我们首先分 析SSM算法中子空间St的结构对算法收敛性质和计算结果的影响。随后,基于分析的结果,我们提出一 种不同的求解(1)的策略,给出一个实施方案,并讨论算法和整体收敛性和计算特点。最后我们给出一些 数值试验结果。 1全局收敛性 Hager在E4]中提出的序列子空间方法(SSM)是一个解决问题(1)的迭代算法。在算法的第忌步,需 要选取相关的S。以解决问题 min (z)一 ̄xTSx+g (2) z∈ S.t. 1 lz ll≤△z∈S^ Hager在E4]中利用Newton法对问题(2)的一阶最优条件求解得到z ,并证明如果S。 ̄span{x。,s9。P), 则算法具有局部二阶收敛性。以下我们讨论S。的结构对SSM算法整体收敛的影响。首先我们证明若 St ̄span{xt,Bxt+g),则算法收敛到问题(1)的KKT点。问题(1)的Lagrange函数是: L(x, )一寺z Bx+gTx+ (1 lz ll-zS) 我们称xi是稳定点(局部极大点、鞍点或局部极小点),如果存在ll兹ll≤△, ∈ 满足 (B+ D蕊一一g,ll蕊ll≤A (3) 引理1.1蕊是问题(1)的稳定点当且仅当蕊对Bzi+g的投影为零向量,且ll蕊ll≤△。 证明蕊对Bxz+g的投影可表示为 :一(J一凳)山^山^ (B蕊+g)一B蕊+g.一苎 苎 山^上^ (4) 若蕊是稳定点,则 满足(3),于是Bxz+g一-- ̄ixi,由(4)可得 一O。 另一方面,若 =O,则由(4)可得 IS一 Jk一一g (5) 令 一盔 王 ,则(3)成立。 定理1.2若SSM算法每次迭代所选取的子空间S。都包括Bx。+g,z 和,则该算法收敛到问题(1) 的一个稳定点。 证明 记SSM算法所产生的点列为{z。),由于z。∈S。,且z抖 是 在{zlz∈S。,l lz ll≤△)上的极 小点,我们有 (z抖 )≤ (z。)。由{z…z ll≤△)的紧性,可知其必有子序列收敛到蕊。不失一般性,我 们仍将该序列记为{z )。由于 的连续性,显然有 (z )收敛到g'(xD。 若 不是(1)的稳定点,我们分别考察一下两个向量 ; xz( 其中P。和, 由(4)定义。显然,若{z。)收敛到 ,则{P。)收敛到 。又由于 与xi,(Bxz-t-g)一 都 正交,于是有 维普资讯 http://www.cqvip.com
5O 运 筹 与 管 理 2007年第16卷 ( (r)) 。一(B + 一。 )一 ) (6) (B +g) (趣(p 一一(B +g)/n 一一l lI I因为我们假设.z'/-不是(1)的稳定点,由引理1.1可知p 不是零向量。 于是存在c>O使得对充分大的k, 有ll P II≥c。所以,由(6)可知,存在KEN,使得 (zt(r)) :一 (zt(r))I r=O ̄D l lP I ≤一cI V忌>忌 (7) 由于gS(x)是二次函数,所以 (z (r))是由r和1/l lX --rp II决定的多项式,且最高阶数不大于6次。 于是 (z (r))在r=O附近的闭区间上的有界性成立,即:了M>0,£>0使得 I (z (r))I≤M V I rI≤£忌>忌 (8) 我们将gS(x (r))在r一0点二阶Taylor展开,结合(7),(8)可得 gS(x^(r))=gS(x^)+ /(z^)r+{ l/,(z^( )) 0≤ ≤ r ≤ (z^)一c r+÷M ≤gS(x^)+(÷Mr—c )r V k>K 特取r=min{ ̄,C /m),可得 gS(x^+1)≤gS(x^(T))gt(x^)一÷c T V k>K (9)显然与gS(x )收敛到gS(x ̄)矛盾。所以 是(1)的稳定点。 (9) 由于每个X 都是相应的(2)的全局极小点,所以{X )的极限点x-/不可能是问题(1)的局部极大点或 鞍点。于是以上定理实际上证明了由SSM算法得到的点列最终收敛到问题(1)的KKT点。 定理1.3[1。 设X。∈R”是问题(1)的全局极小点,当且仅当存在 ≥0使得 (B+ I)x :一g (10) 且B+ I半正定,l lX。II≤△, (1 lX ll--a)一0。 不难发现,B+ I不是半正定阵当且尽当Xi只是KKT点,而非全局极小点。对此类KKT点, Martinez给出了以下刻画。 定理1.4 问题(1)至多存在一个非全局极小的KKT点xi,并且我们有xi一△, ∈(一口 ,一口 )。其 中 满足KKT必要条件,a ,a 分别是B最小的两个特征值。 以上定理证明了若xi是一个非全局极小的KKT点,则B+kI不是半正定的。设B+ I的最小特 征值所对应的特征向量是 。Lucidi,Palagi和RomaE5]对KKT点的进一步刻画给出了一个让目标函数 进一步下降的方法。 定理1.5如果( , )是问题(1)非全局极小的KKT点,那么只可能属于以下两种情况: (a)若grx >0,记 Xi一一∞ (b)若grxi≤0,且] ∈R”使得ZT(B+2A ̄I)z(O,则 (i)若l lIl<△<记 Xl一一 +az 其中 ≤ (ii)若ll趣ll一△且xlz≠0,记 一趣 维普资讯 http://www.cqvip.com
第5期 吕立波:解决大规模信赖域子问题的一种新算法 51 (iii)lI ll一△且ziz一0,记 A2 z xiz 一2一  蔷 其中 Xi +a十 z)、>竖:兰二[ 竖: ± 竖二兰 : 皇± z (B+2 ij) 则我们有XF(x ̄)< ( ),II z Il≤△ 。 如果 是一个非全局极小的KKT点,则 只可能满足情况a或b(ii)。 如果Si span{ ,z)由以上定理我们知道相应问题(2)的解z蚪 必满足 (z抖 )< ( )。我们以 z + 为初始点,再次按照定理(1.2)对子空间的选取执行SSM算法,求得问题(1)的新的KKT点z 。由 定理1.3可得,z 必为问题(1)非全局极小点。于是我们证明了以下结论。 定理1.6设x-/是问题(1)非全局极小的KKT点 。则按照定理1.5选取,z川,并继续按照定理 (1.2)选取子空间,则SSM算法必收敛到问题(1)的全局极小点。 2 SSM算法的改进 我们知道,当问题(1)的规模相当大时,直接利用Cholesky分解计算求解是非常困难的。SSM算法 将一个大规模问题的求解转化成对一系列中小规模问题的求解,再通过对解序列的讨论而得到问题解,从 而成功的降低了计算量。 以下我们讨论算法的具体实现过程。设dimS 一z,首先利用Krylov子空间方法,将我们所选定的向 量扩充成z维线性无关向量组,并令其为S 中的一组基。再利用Householder方法将其单位正交化以构 成一个矩阵VER 。预校正之后得到下面这个等价问题 min z∈R』 (z)一百1 1’亩 + 1’Y 6 (11) S.t. 1 lY II≤△ 其中豆一 BV, 一 g,z—vy。如果z较大,则采用Lanczos方法对豆三对角化,接着利用More,So— rensen中的方法求解问题(11),得到Y + ,z抖 , …。注意到在处理大规模问题时,对于矩阵 的计算量 和存储量将会随着z的增长而快速增长。所以,在Hager的实际计算中,作者只令z一4,S —span{x , xsQ ,B z+g,岛),其中£是B对应于a 的特征向量。具体计算方法和技巧,请参照Hager。 结合上一节的证明过程不难发现,Hager对S 的选取可以保证算法收敛到KKT点。而我们的求解 策略使得如果算法迭代到非全局极小的KKT点,我们可以依然通过选取适当的子空间,使得算法可以进 一步迭代下去,最终得到全局极小点。我们称该算法为改进SSM算法,记做MSSM算法。为了减少问题 (2)的计算量,我们将MSSM算法中S 的维数定为3。算法的具体表述如下: 算法2 步1 给定初值k:一0; 一0,z 一(1,0,…,0) ∈R ,£>0,S =span{xI,Ax ,A ),将相应的问题 (2)转化成(2)的形式,求解得到z + , + ,令k:一五十1; 步2若ll(B+ Dz +g II<£,则转入步5; 步3计算z P,令S 一span{x ,z P,Bx +g); 步4 将相应的问题(2)转化成(11)的形式,求解得到z抖 , + ,令k:一五十1,转入步2; 步5按照定理1.5的方法给出z ; 步6令z 一zi,S 一span{x ,z)转入步4。 对以上MSSM算法的一些细节,比如预校正子的选取和求解z , 的技巧感兴趣的读者,请参阅 Hager中相关的介绍。以下我们结合数值试验的结果,对算法进行讨论。 4数值试验和讨论 在这一节中,我们将MSSM算法与[8]中的RW算法、[9]中的LSTRS算法和E4]中的SSM算法进 维普资讯 http://www.cqvip.com
52 运 筹 与 管 理 2007年第16卷 行比较。令B=Bo--51,其中,Bo是具有5点等距网格的单位正方形空格样板上的标准2维Laplace算 子。我们随机地取2O个不同的g,其中g的元素一致分布在区间[O,1]上。对于不同的容许误差、信赖域 半径,我们有以下平均运算结果。 表I 不同容许误差条件下的矩阵向量乘积平均次数 表2不同信赖域半径条件下的矩阵向量的乘积平均次数 从上面的计算结果中我们可以看到,对于相同的容许误差和信赖域半径,SSM算法和MSSM算法所 需要的向量乘积次数比RM算法和LSTRS算法明显减少。而且由于MSSM算法中我们选定的维数比 [-4]SSM算法中的维数至少小一维,所以,MSSM算法所需的向量乘积次数比[4]SSM算法更少。这一改 进在处理工程技术中出现的规模日益庞大的优化问题时,显示出其重要意义。同时,我们发现不同的容许 误差和信赖域半径对运算量起着关键性的作用。我们希望读者在利用MSSM算法构建信赖域算法的时 候,能够利用以上两份计算结果中的信息对信赖域算法进行一些调整。比如适当放宽容许误差和控制信 赖域半径,这样既不会对计算结果产生本质影响,又可以有交减少运算量,提高运算效率。 综上所述不难发现,序列子空间算法收敛性分析的关键所在就是关于Sk的选取。经过上面的讨论, 我们已经得到了可以保证全局收敛性的子空间选取办法,接下来对算法进一步的研究应该主要集中在如 何选取S 以达到满意的整体收敛速度,同时尽可能保持MSSM算法在节省运算量方面的优势。此外, MSSM算法在信赖域算法中的应用也是值得探讨的。 参考文献: [1]Gay D M.Computing optimal locally constrained steps[J].SIAM J.sci.Statist.Comput.,1981,(2):186—197. [2]Golub G H,Von Matt U.Quadratically constrained least squares and quadratic problems[J].Num.Math..1991。 (59):561-580. [33 Gould N I M,Lucidi S,Roma M,Toint P L.Solving the trust-region subproblem using the Lanczos methodEJ3.SIAM J.Optim.,1999,(9):504-525. [43 Hager W W.Minimizing a quadratic over a sphereEJ].SIAM J.Optim.,2001,(12):188—208. [53 Lucidi S,Palagi L,Roma M.On some properties of quadratic programs with a convex quadratic constraint[J].SIAM J.Optim.,1998,(8):105-122. [63 Martinez J.Local minimizers of quadratic functions on Euclidean balls and spheres[J].SIAM J.Optim.,1994,(4): 159—176. [73 More J J,Sorensen D C.Computing a trust region stepEJ].SIAM J.Sci.Stat.Comput.,1983,(4):553—572. [83 Rendi F,Wolkowicz H.A semidefinite framework for trust region subproblems with applications to large scale minimi— zation[J3.Math.Prog.1997,(77):273—299. [93 Rojas M,Aantos S A,Sorensen D C.A new matrix-free algorithm orf the large-scale trust-region subproblem[J].SI— AM J.Optim.,2000,(11):611-646. [1O3 Sorensen D C.Newtoffs method with a model trust region modiifcation[J].SIAM J.Numcr.Ana1.,1982,(19):409— 426. [11]Sorensen D C.Minimization of a large-scale quadratic function subject to a spherical constraint[J-].SIAM J.Optim.。 1997.(7) 141.161.