您好,欢迎来到九壹网。
搜索
您的当前位置:首页一种新型的船舶横摇运动实时预报方法

一种新型的船舶横摇运动实时预报方法

来源:九壹网
维普资讯 http://www.cqvip.com

43卷第1抽(总第106期 中 国 造 船 Vol 43 No 1(se¨且I No.156) 2002年3月 SHIPBUILDING OF CHINA Mar.,2002 文章编号:i000 4882(2002)01—0070 05 一种新型的船舶横摇运动实时预报方法 徐培,金鸿章, 王科俊, 阎立涛 (哈串滨工程大学自 化学皖, 黑龙江哈尔滨 150001) 摘 要 本文在阐述强化学习的基本厚理、方法的基础上 提出了一种基于强化学习的TD算法与BP算法相结 音的BPTD方法,并将其用于对角回归神经羽络的在线训练。最后以在船艏横摇运封窭时预捏技术上的应 用为倒,说明这种算击有锟强的实时多步预报能力。 关键 词:强化学习;神经网络;预掘 中田分类号:U665.261 文献标识码:A (一) 引 言 传统的时问序列分析与预报理论以线性自回归(AR)模型和线性自回归滑动平均(ARMA)模型为 基础,对线性系统有较好的效果,但不适于非线性系统的时间序列建模与预报。神经网络能够逼近任 意非线性函数,具有分布式处理、容错能力强等诸多优点,已在时差预报中得到应用。目前预报中使 用最多的是静态多层前向神经网络,对于静态系统的建模预报,这种方法能取得良好的效果。但实际 系统多为动力学系统,如果利用静态多层前向网络构成回归网络就必须预先给出模型的阶数,即事先 确定系统的模型类,这一点极难做到。由于动态网络能够通过训练掌握系统的动力学特征,近年来, 具有内部反馈的动态网络在系统建模与预报中的应用已引起人们的重视 ],代表了神经网络建模、辩 识、预报、控制的发展方向。动态网络的优点是不需预先确定系统的模型和阶数。本文采用一种属于 动态网络的对角回归神经网络,利用基于强化学习原理的TD与BP相结合的BPTD算法对船舶横摇 运动进行实时多步预报,实验证明这种算法具有较好的预报效果。 (二)强化学习的基本原理与算法 强化学习是模拟人和其它生物学习过程的一种机器学习方法,它模拟生物通过“行动一评价一改进 的方式来适应环境的能力,属于在线监督学习过程。典型的强化学习算法有:简单的随机梯度方法, 评价预测法,Q学习以及瞬时差分(TD)法。其中TD算法是一种能够对积累量进行预测、代表强化学 习算法研究方向的方法。 TD算法的思想是 :考虑多步预测的问题,设有观测结果序列 , ,……X z;其中 为 时 刻的观测向量0=1,2,…, ),。为最后结果。从上述观测序列可掏成对 的一系列估计 , 。.…. 户 。当用神经网络作预测器时,每一预测 是 及∞的函数,P =P ( , ),学习归结为修改 以达 到正确预测。如用监督学习,每一步都要以。为标准修改 .即: 收稿日期 2000—11—1 7} 修改稿收稿日期;0001 04 03 维普资讯 http://www.cqvip.com

43眷第1期(总第156期) 棘培等:一种新型的船舶横摇运动实时预报方法 ∞一 __∑ (1) J一】 由梯度法 =口(2一只)可 问题在于2只有到最后才知道.所以必须把所有的 存下来。直到最后才能算出各 来。而 TD算法给出了一种计算她的增量法,可避免上述问题。它是把时间相继的评价信号的估计值作为 学习的参考信号,将。一尸 写为各瞬时预测值之差的和: 一尸 一∑( + 一P ), 并定义尸¨ 。。’ 于是有 一∑4 f一1 m 一∑a(z一尸 )口 =∑ ∑( + 一 )口 一∑ ∑( 一 一只) P f一1 r一】 — ^ =1 w 一∑a(P 一尸 )∑ 尸 (2) =1 ^一】 因此 =a(P『+]一P )∑ P (3) =1 上式(称为TD(1))不需知道。就能计算 ,节省了计算量和存储量,有时为了更重视近期的 ,可在它前面加一指数衰减因子^: =日(PH 一P )∑ 可 P 此式称为TD(^)。 (三)基于TD与BP相结合的BPTD算法 运用TD法进行成功预报的关键是求出梯度 R,如果采用多层前向神经网络实现上述算法,可 以从输出层到输^层反向计算可 ]。 设有一个 层的前向网络, ;表示第”层的第J个节点, ;和 分别表示该节点的输入和输出, f表示节点的作用函数,即 =,( ) ,(∑ + ,其中 j 表示从 一 到 ;的连接权, 是节点 的阈值。对一个给定的输^模式,第k个预测输出是尸 ,即尸I—EP 尸一…],那么 = =警茄= ㈨ 其中, 一等,当n— 时,即对于输出节点 =厂(xD,当”≠ 时,即对于隐层节点, 一 厂( :) r ,n:M一1,M一2,…,2。 总之,尽管TD法中没有给出如何计算可 R,但当用多层前向网络,对角回归等实现TD法时, 可以由BP方法完成 ,的计算。 (四) BPTD算法在船舶横摇运动实时预报技术上的应用 船舶横向运动建模是一个复杂的问题。几十年来,尽管在船舶纵摇、垂荡运动理论建模和预报上 已取得了极大成功,但船舶的横向运动(横摇、横荡和艏摇)建模却不能令人满意。而在船舶运动中, 维普资讯 http://www.cqvip.com

中 国 造 船 学术论文 横摇对船舶运行的影响最大,所以准确地对船舶横摇运动进行实时预报具有重要意义。由于动态网络 具有不需事先确定系统模型类的优点,所以我们选用了一种属于动态网络的对角回归神经网络;而BP 算法是一种有教师学习方法,不能进行实时预报,所以我们采用了再励学习中的TD算法与之相结合 的做法进行在线实时多步预报 1.神经网络结构 经选择采用结构相对简单,训练时间短的三层对角回归神经网络,结构如图1。 其数学模型为: OAt)=∑A H (f) H (£)=g(V (})) y ( )一A H,0~1)+∑L4 (£)( ≤户) , … 各变量说明如下 <一 n <一 图1 三层对角回归神经网络结构图 (1)声,g,r分别表示输人层、隐层、输出层的神经元个数,这里根据要求和实验确定声一2,g一 5 50,r=8;(2)I,H,0分别表示输入层、隐层、输出层各神经元的输出:I (£)为前一时刻对当前横摇 角的预测值,即I (})=0 (£一1);I (f)为当前船舶实际横摇角O(t)}0 (£)表示第 步预测输出;(3) .(£)表示第 个回归神经元的输入和;(4) 表示由输入神经元i到隐层神经元 的连接权;Af表示 第J个隐层神经元的回归权;A 表示由隐层神经元J到输出神经元 的连接权;(5)g( )为Sigmoid 函数.取g( ):l/(1一 一);其导函数为g( )=一1/(2+ + 一)。 2.船舶横摇运动实时预报实验 实验实现前述对角回归神经网络(输入层神经元个数为2,隐层神经元个数为5o,输出层神经元个 数为8)的多步预测。为了达到较好的效果,采用适于动态调整的以误差梯度信号为依据的变学习率方 案: ‘ 一印 “一¨ 【 (£)=rt(t—1) △ (£) (6) 其中0 e<l为常数, f 8E(£)8E(£一1)1 一 g“ ’— 一J 且为避免学习过程中学习率过太.以致系统不稳定,学习率的最大值 即 ( ) … 实验中所用数据为采集的某船实际横摇角,以此数据对神经网络进行在线预测。1、2、3、5和8 步(以s为单位)预报的结果如图2~6所示(图中实线为实验的横摇角,虚线为预报的横摇角): ‘0 卜step 2O 一 i, IJ I O _l 赢 I ‘ 一2O 从“氘 胁 肿 ‰ 黼 一 翠 w rr 2横摇角一岳煎报 『l一 一4O 这些曲线表明:1、2、3步预报能取得较高的预报精度,但5步预报效果已开始下降,8步预报效 维普资讯 http://www.cqvip.com

43卷第1期t总第156期) 豫培等:一种新型的船舶横摇运动宴时预报方法 ^,。 一_】 帅 。 肋 ¨ ¨ 拍 。 ∞ 3横幅角 步颅摧 t横插角 班州撒 5一 e口 。 J l jlM l h :.n I m 一4f 4 讥 批 ^1  ’f 1 1 ’ 1’ ’ 5横摇角 班坝摧 8一neP J n .1IM .4 ^/1 I 6 稀 .止,l M 1 8y 一 V V 一州 I ’ V U T 图6横摇角八步预报 果较差。这说明应用基于强化学习原理的BPTD算法对船舶横摇运动的短期(1~5s)预报是行之有效 的。 (五)结 论 理论分析表明:TD与BP算法相结合的BPTD算法能够进行实时预报.实验也证明这是一种较 llIllIl维普资讯 http://www.cqvip.com

llflIIlIIjl{} 中 国 造 船 学术论文 好的实时多步预报方法。其实,只需改变控制对象.就能够将此控制方案推广到其它预报系统,如天 气预报、股市预测等,这样就可以更大的发挥其潜能。 参考文献 [1]王科俊.神经网络建模、预报与控制[M].哈尔滨:哈尔滨工程大学出版社,1996 [2]同平凡.再励学习——原理、算法及其在智能控翩中的应用_j].信息与控制.1996,25(i);28~34 Is]阃立旃.用神经网络对船舶横摇运动时间序列进行实时在线预铡[R].暗尔滨工程大学毕业设计,1998 New Method of Ship Rolling Real Time Forecast XU Pei,JIN Hong—zhang,WANG Ke—jun,YAN Li—tao (Harbin Engineering University,Harbin 150001,China) Abstract The ship rolling real—time forecast is carried out using the diagonal recurrent neural network,the traing training of which uses the BPTD algorithm proposed in this paper. The time delay(TD)algorithm based on the basic principle of reinforcement learning(BL)is presented Then,an algorithm named BPTD based on the time delay algorithm in reinforcement learning and the error back—propagation algorithm for the train of multi—-layer feed—-forward neural net— works are proposed to train the diagonal recurrent neural networks.The diagonal recurrent neural network using the BPTD algorithm is applied to the real—time forecast of ship roiling.Experiments based on the measured data of fall—scale ship roll motion indicated the results of 1 step,2 steps,3 steps and 4 steps forecast have the very good precision,but the results of real—time forecast after 5 steps begin to deteriorate.These results demonstrate the effectiveness and,efficiency of the methods proposed in this paper. Key words:Reinforcement Learning;Neural Networks;Forecast;Roll motion 作徐培者简介 女,哈尔滨工程大学自动化学琬研究生。研究领域为智能控制理论及应用,船舶控制和控制系统 通信地址 黑龙江省暗尔滨市晗尔滨工程大学四系98研,150001。 盘鸿章男.1946年生.教授,博士生导师 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 91gzw.com 版权所有 湘ICP备2023023988号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务